01Spark生态和安装部署.pdf01Spark生态和安装部署图文百度文库http:wenku.baidu.comlink?urleCG-dk97jxI0wxtnywW3Sfqa
//01Spark生态和安装部署.pdf
01Spark生态和安装部署图文百度文库
http://wenku.baidu.com/link?url=eCG-dk97jxI0wxtnywW3Sfqa5uZrY2yADQ3jbAvrxBAcnEsHTlV940CwMLg2dQgaJMSVGFED5R4H0fbJBRBtFuKhnTxtJovRlASDB_UGXf_
课程回顾
Spark 是一个大数据处理引擎(或者说是开发包),其核心是 Spark Core ,基础是 RDD ;
Spark 应用程序有两部分组成: driver 和 executor
Spark 应用程序可以在多种集群里运行: Mesos 、 YARN 、 Spark Standalone 、 AWS 。。。
Spark 应用程序的部署工具是 spark-submit
Spark 的源码编译方法
– Maven
– Sbt
– make-distribution
Spark 应用程序之所以快不仅仅是由于基于内存计算,还和其工作原理相关
– DAG
– Schedule
– Cache()
– …
例子解析.png
集群中运行架构.png
集群中运行架构.png
04SparkSQL原理和实践图文百度文库
http://wenku.baidu.com/view/f24bb3e65727a5e9856a61e4.html
什么是 hive
由 facebook 开源 , 最初用于解决海量结构化的日志数据统计问题 ;
– ETL(Extraction-Transformation-Loading) 工具
构建于 hadoop 的 hdfs 和 mapred 之上 , 用于管理和查询结构化 / 非结构化数据的数据仓库
设计目的是让 SQL 技能良好 , 但 Java 技能较弱的分析师可以查询海量数据
– 使用 HQL 作为查询接口
– 使用 HDFS 作为底层存储
– 使用 MapRed 作为执行层
2008 年 facebook 把 hive 项目贡献给 Apache
为什么 hive
大数据的挑战
海量数据时代的到来
– IDC 数据表明 , 全球企业数据正以 55% 的速度逐
年增长 ,IDC 预计 , 到 2020 年 , 全球数字信息总
量将增长 44 倍。以某网络视频公司为例 : 每天
新增数据量高达 500G 。
非结构化数据的爆炸式增长
– 有超过 80% 的数据都是非结构化的 , 如网站访问
日志、移动互联网数据和聊天交流工具记录等。
存储和查询分析需要
– 愈加激烈的竞争要求对客户进行更加深入细致的
分析。
传统技术无法胜任大数据的存储、管理、分析和挖掘
– 传统的关系型数据库以及 BI 分析工具通常只能
处理 GB 级别的结构化数据
hive 的缺点
Hive 的 HQL 表达的能力有限
– 有些复杂运算用 HQL 不易表达
Hive 效率较低
– Hive 自动生成 MapReduce 作业 , 通常不够智能 ;
– HQL 调优困难 , 粒度较粗
– 可控性差
//hive 的运行架构
hive 系统架构
元数据存储( Metastore )
驱动( Driver )
– 编译器
– 优化器
– 执行器
接口
– CLI
– HWI
– ThriftServer
Hadoop
– 用 MapReduce 进行计算
– 用 HDFS 进行存储
Paste_Image.png
//
hive 的运行架构.png
//
元数据存储( MetaStore )
– Derby
– MySQL
Paste_Image.png
//
hive 的运行架构
驱动( Driver )
– 编译器( hive 的核心)
●
语法解析器( ParseDriver )
– 将查询字符串转换成解析树表达式
●
语法分析器( SemanticAnalyzer )
– 将解析树转换成基于语句块的内部查询表达式。
●
逻辑计划生成器( logical plan generator )
– 将内部查询表达式转换为逻辑计划,这些计划由逻辑操作树组成。
– 操作符是 hive 的最小处理单元 , 每个操作符处理代表一道 HDFS 操作或 MR 作业
●
查询计划生成器( query plan generator )
– 将逻辑计划转化成物理计划( MR Task )
– 优化器
●
优化器是一个演化组件。当前,它的规则是:列修剪,谓词下压。
– 执行器
●
编译器将操作树切分为一个 Task 链( DAG ),执行器会顺序执行其中所有 Task ;如
果 Task 链( DAG )不存在依赖关系时,可采用并发执行的方式进行 Job 的执行
//
hive 的运行架构
接口
– CLI :为命令行工具,为默认服务
●
启动方式 bin/hive 或 bin/hive –service cli
– hwi :为 web 接口,可以通过浏览器访问 hive ,默认端口 9999
●
启动方式为 bin/hive –service hwi 。
– ThriftServer :通过 Thrift 对外提供服务,默认端口 10000
●
启动方式为 bin/hive –service hiveserver 。
其他服务( bin/hive –service –help )
– metastore ( bin/hive –service metastore )
– hiveserver2 ( bin/hive –service hiveserver2 )
●
HiveServer2 是 HiveServer 的改进版本,它提供新的 Thrift
API 来处理 JDBC 或者 ODBC 客户端, Kerberos 身份验证,
多个客户端并发
●
HiveServer2 还提供了新的 CLI : BeeLine , Beeline 是 hiv
e 0.11 引入的新的交互式 CLI ,它基于 SQLLine ,可以作为
Hive JDBC Client 端访问 Hive Server 2 ,启动一个 beeline
就是维护了一个 session 。
//
Hadoop
– 用 MapReduce 进行运算
– 存储在 HDFS
●
hive 中所有数据存储在 HDFS 上,包括数据模型中的 Table 、 Partition 、 Bucket
●
hive 的默认数据仓库目录是 /user/hive/warehouse ,在 hive-site.xml 中由 hive.meta
store.warehouse.dir 项定义
●
除了 External Table ,每个 Table 在数据仓库下都有一个相应的存储目录
●
当数据被加载至表中时 , 不会对数据进行任何转换,只是将数据移动到数据仓库目录。
●
Table 被删除时,表数据和元数据都被删除
●
External Table 被删除时,元数据都被删除,表数据不删除
●
表中的一个 Partition 对应表下的一个子目录
– 表 log -> /user/hive/warehouse/log
– log 中含 year 和 month 两个 partition ,则:
– 对于 year=2014 , mOnth=6 的子目录为 log/year=2014/mOnth=6
– 对于 year=2014 , mOnth=7 的子目录为 log/year=2014/mOnth=7
●
每个 Bucket 对应一个文件
//
hive 的数据模型
Database
Table
Partition
Bucket
File
//
shark 运行架构
Paste_Image.png
//
SparkSQL 运行架构
Paste_Image.png
SparkSQL 运行架构
TreeNode 体系
Logical Plans 、 Expressions 、 Physical Opera
tors 都可以使用 Tree 表示
– TreeNode 具备一些 scala collection 的操作能力
和树遍历能力,树的修改是以替换已有节点的方
式进行的。
– TreeNode ,内部带一个 children: Seq[BaseTyp
e] 表示孩子节点,具备 foreach 、 map 、 collec
t 等针对节点操作的方法,以及 transformDow
n 、 transformUp 这样的遍历树上节点,对匹配
节点实施变化的方法。
– 三种 trait
●
UnaryNode 一元节点,即只有一个孩子节
点。 Linit 、 Filter
●
BinaryNode 二元节点,即有左右孩子的二叉
节点。 Jion 、 Union
●
LeafNode 叶子节点,没有孩子节点的节点。
SetCommand
//
整体运行过程
Paste_Image.png
05Spark Streaming原理和实践图文百度文库
http://wenku.baidu.com/view/03f5fe1e71fe910ef02df83f
05Spark Streaming原理和实践
//06Spark 机器学习入门.pdf
06Spark 机器学习入门图文百度文库
http://wenku.baidu.com/link?url=cexKzbgLGg9EYB8kqcb9XaxC3aaQm1r8RYFqjGwNulGxBXWVsvILFQQzT1akmsUVuWw5RMQ0cIs5okgDldxfVzehpBUadyiAsnDfDRKjnGa
什么是机器学习
机器学习应用十分广泛
– 数据挖掘
– 计算机视觉
– 自然语言处理
– 生物特征识别
– 搜索引擎
– 医学诊断
– 检测信用卡欺诈
– 证券市场分析
– DNA 序列测序
– 语音和手写识别
– 战略游戏和机器人运用
机器学习分类
监督学习从给定的训练数据集中学习出一个函数(模型),当新的数据到来时,可以根据这个函
数(模型)预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练
集中的目标是由人标注(标量 ) 的。常见的监督学习算法包括回归分析和统计分类。
– 二元分类是 ML 要解决的基本问题,将测试数据分成两个类。如垃圾邮件的判别、房贷是否允
许等等问题的判断。
– 多元分类是二元分类的逻辑延伸。例如,在因特网的流分类的情况下,根据问题的网页可以
被归类为体育,新闻,技术,或成人 / 色情,依此类推。
无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
半监督学习介于监督学习与无监督学习之间。
增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到
的周围环境的反馈来做出判断。
实例演示
– K-Means 算法介绍和实例
– 协同过滤 算法介绍和实例
Paste_Image.png
K-Means
K-Means 是聚类的一个算法,是一个无监督学习,目标是将一部分实体根据某种意义上的相似度
和另一部分实体聚在一起。聚类通常被用于探索性的分析。
算法:
– 1 选择 K 个点作为初始中心
– 2 将每个点指派到最近的中心 , 形成 K 个簇 ( 聚类 )
– 3 重新计算每个簇的中心
– 4 重复 2-3 直至中心不发生变化
距离
– 绝对值距离
– 欧氏距离
– 闵可夫斯基距离
– 切比雪夫距离
– 马氏距离
协同过滤
协同过滤常被应用于推荐系统。这些技术旨在补充用户 – 商品关联矩阵中所缺失的部分。
MLlib 当前支持基于模型的协同过滤,其中用户和商品通过一小组隐性因子进行表达,并且这些
因子也用于预测缺失的元素。 MLLib 使用交替最小二乘法 (ALS) 来学习这些隐性因子。
在 MLlib 中的实现有如下的参数 :
– numBlocks 是用于并行化计算的分块个数 ( 设置为 -1 为自动配置 ) 。
– rank 是模型中隐性因子的个数。
– iterations 是迭代的次数。
– lambda 是 ALS 的正则化参数。
– implicitPrefs 决定了是用显性反馈 ALS 的版本还是用适用隐性反馈数据集的版本。
– alpha 是一个针对于隐性反馈 ALS 版本的参数,这个参数决定了偏好行为强度的基准