docker常用命令

Install docker on mac

1
$ brew cask install docker

Get docker info

1
2
$ docker --version
Docker version 17.12.0-ce, build c97c6d6
1
2
$ docker-compose --version
docker-compose version 1.18.0, build 8dd22a9

docker简单入门

Docker安装

根据自己的操作系统,参考官方文档完成安装

测试是否安装成功,运行第一个容器

1
2
3
4
5
6
7
8
9
$ docker run hello-world
Unable to find image 'hello-world:latest' locally
latest: Pulling from library/hello-world
ca4f61b1923c: Pull complete
Digest: sha256:66ef312bbac49c39a89aa9bcc3cb4f3c9e7de3788c944158df3ee0176d32b751
Status: Downloaded newer image for hello-world:latest

Hello from Docker!
...

《Fast Data Processing with Spark 2(Third Edition)》读书笔记目录

目录

《高效的秘密》读书文摘

激发动力

  • 和周围环境的人打好基础,他们会在合适的时机给予帮助,适当地运用小聪明。 > 罗伯特总爱说,为了做生意,他跑遍了墨西哥湾沿岸,任何一条小路和陋巷都留下过他的车辙。公司逐渐发展起来,罗伯特的豪爽也出了名,他总是邀请新奥尔良、亚特兰大等大城市的客户到各色酒吧,尽兴方归。到了次日早晨,罗伯特会趁那些人还处于宿醉状态,让他们心甘情愿地签下几百万美元的订单。酒吧里,调酒师总是不失默契地往罗伯特的杯子里倒苏打水,而给他的大客户们奉上鸡尾酒。

  • 生活没有动力时,还是要学会给自己灌鸡汤。 > 懂得自我激励的人比同辈人的收入更高,幸福感更强,对自己的家庭、工作和生活的满意度也更高。

皮尔逊相关系数(Pearson Correlation Coefficient)

在介绍皮尔逊相关系数前,先来回顾一些统计相关的术语,便于我们更好的理解后面的计算公式。

方差(Variance)

参考百度百科

注意:

方差在统计描述和概率分布中各有不同的定义,并有不同的公式。

下面主要介绍在统计描述中的方差

在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。

《Fast Data Processing with Spark 2(Third Edition)》读书笔记三

本书其它笔记Fast Data Processing with Spark 2(Third Edition)》读书笔记目

数据分析的主力Datasets/DataFrames

DataSets概述

Spark中,Dataset就是一组各式各样的列,类似一张excel表格或关系型数据库中的表。可以用于类型检查和语义化查询。

在R和Python语言中,使用的依然是DataFrame类,但是包含了所有的DataSet APIs。因此可以这样认为,DataSet在Python和R语言中就叫做DataFrame。

在Scala和Java语言中,使用的是DataSet接口,不存在DataFrame。

《Fast Data Processing with Spark 2(Third Edition)》读书笔记二

本书其它笔记Fast Data Processing with Spark 2(Third Edition)》读书笔记目

在Spark中加载和保存数据

在我们开始操作数据之前,让我们先看一些Spark的概念以及了解一下不同的数据形态

Spark抽象概念

Saprk的主要特点就是分布式的数据描述(representation)和计算,因此拥有大规模的数据操作。Spark主要的数据描述单元就是RDD(原句是: Spark’s primary unit for representation of data is RDD), 可以很方便的允许并行的数据计算。在Saprk 2.0.0版本之前,都是基于RDDs工作的。然而,它们都是低级别的原始结构,在执行和扩展上有很大的优化空间。因此才有了Datasets/DataFramesDatasets/DataFrames是API级别的抽象,也是编程的主要接口,它提供了大量操作RDD, 但是通过优化查询计划在RDDs上封装了一层。因此,底层仍然是RDD, 只是通过Datasets/DataFrames的API来访问。

RDDs can be viewed as arrays of arrays with primitive data types, such as integers, floats, and strings.

Datasets/DataFrames, on the other hand, are similar to a table or a spreadsheet with column headings-such as name, title, order number, order date, and movie rating-and the associated data types.

RDDs可以看做是一系列原始数据数组的集合,比如: 整型,浮点型和字符串。Datasets/DataFrames在另一方面来说,有点类似一张表单或表格,有许多列标题(比如姓名,标题,订单号,订单日期,电影评分)以及关联的数据类型。