热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

[dataguru]04SparkSQL原理和实践

01Spark生态和安装部署.pdf01Spark生态和安装部署图文百度文库http:wenku.baidu.comlink?urleCG-dk97jxI0wxtnywW3Sfqa

//01Spark生态和安装部署.pdf
01Spark生态和安装部署图文百度文库
http://wenku.baidu.com/link?url=eCG-dk97jxI0wxtnywW3Sfqa5uZrY2yADQ3jbAvrxBAcnEsHTlV940CwMLg2dQgaJMSVGFED5R4H0fbJBRBtFuKhnTxtJovRlASDB_UGXf_

课程回顾





Spark 是一个大数据处理引擎(或者说是开发包),其核心是 Spark Core ,基础是 RDD ;
Spark 应用程序有两部分组成: driver 和 executor
Spark 应用程序可以在多种集群里运行: Mesos 、 YARN 、 Spark Standalone 、 AWS 。。。
Spark 应用程序的部署工具是 spark-submit
Spark 的源码编译方法
– Maven
– Sbt
– make-distribution
 Spark 应用程序之所以快不仅仅是由于基于内存计算,还和其工作原理相关
– DAG
– Schedule
– Cache()
– …

《[dataguru]04SparkSQL原理和实践》 例子解析.png
《[dataguru]04SparkSQL原理和实践》 集群中运行架构.png
《[dataguru]04SparkSQL原理和实践》 集群中运行架构.png

04SparkSQL原理和实践图文百度文库
http://wenku.baidu.com/view/f24bb3e65727a5e9856a61e4.html

什么是 hive
 由 facebook 开源 , 最初用于解决海量结构化的日志数据统计问题 ;
– ETL(Extraction-Transformation-Loading) 工具
 构建于 hadoop 的 hdfs 和 mapred 之上 , 用于管理和查询结构化 / 非结构化数据的数据仓库
 设计目的是让 SQL 技能良好 , 但 Java 技能较弱的分析师可以查询海量数据
– 使用 HQL 作为查询接口
– 使用 HDFS 作为底层存储
– 使用 MapRed 作为执行层
 2008 年 facebook 把 hive 项目贡献给 Apache

为什么 hive
大数据的挑战
 海量数据时代的到来
– IDC 数据表明 , 全球企业数据正以 55% 的速度逐
年增长 ,IDC 预计 , 到 2020 年 , 全球数字信息总
量将增长 44 倍。以某网络视频公司为例 : 每天
新增数据量高达 500G 。
 非结构化数据的爆炸式增长
– 有超过 80% 的数据都是非结构化的 , 如网站访问
日志、移动互联网数据和聊天交流工具记录等。
 存储和查询分析需要
– 愈加激烈的竞争要求对客户进行更加深入细致的
分析。
 传统技术无法胜任大数据的存储、管理、分析和挖掘
– 传统的关系型数据库以及 BI 分析工具通常只能
处理 GB 级别的结构化数据

hive 的缺点
 Hive 的 HQL 表达的能力有限
– 有些复杂运算用 HQL 不易表达
 Hive 效率较低
– Hive 自动生成 MapReduce 作业 , 通常不够智能 ;
– HQL 调优困难 , 粒度较粗
– 可控性差

//hive 的运行架构
hive 系统架构
元数据存储( Metastore )
驱动( Driver )
– 编译器
– 优化器
– 执行器
接口
– CLI
– HWI
– ThriftServer
Hadoop
– 用 MapReduce 进行计算
– 用 HDFS 进行存储

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//

《[dataguru]04SparkSQL原理和实践》 hive 的运行架构.png

//
元数据存储( MetaStore )
– Derby
– MySQL

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//
hive 的运行架构
 驱动( Driver )
– 编译器( hive 的核心)

语法解析器( ParseDriver )
– 将查询字符串转换成解析树表达式

语法分析器( SemanticAnalyzer )
– 将解析树转换成基于语句块的内部查询表达式。

逻辑计划生成器( logical plan generator )
– 将内部查询表达式转换为逻辑计划,这些计划由逻辑操作树组成。
– 操作符是 hive 的最小处理单元 , 每个操作符处理代表一道 HDFS 操作或 MR 作业

查询计划生成器( query plan generator )
– 将逻辑计划转化成物理计划( MR Task )
– 优化器

优化器是一个演化组件。当前,它的规则是:列修剪,谓词下压。
– 执行器

编译器将操作树切分为一个 Task 链( DAG ),执行器会顺序执行其中所有 Task ;如
果 Task 链( DAG )不存在依赖关系时,可采用并发执行的方式进行 Job 的执行

//
hive 的运行架构
 接口
– CLI :为命令行工具,为默认服务

启动方式 bin/hive 或 bin/hive –service cli
– hwi :为 web 接口,可以通过浏览器访问 hive ,默认端口 9999

启动方式为 bin/hive –service hwi 。
– ThriftServer :通过 Thrift 对外提供服务,默认端口 10000

启动方式为 bin/hive –service hiveserver 。
 其他服务( bin/hive –service –help )
– metastore ( bin/hive –service metastore )
– hiveserver2 ( bin/hive –service hiveserver2 )

HiveServer2 是 HiveServer 的改进版本,它提供新的 Thrift
API 来处理 JDBC 或者 ODBC 客户端, Kerberos 身份验证,
多个客户端并发

HiveServer2 还提供了新的 CLI : BeeLine , Beeline 是 hiv
e 0.11 引入的新的交互式 CLI ,它基于 SQLLine ,可以作为
Hive JDBC Client 端访问 Hive Server 2 ,启动一个 beeline
就是维护了一个 session 。

//
 Hadoop
– 用 MapReduce 进行运算
– 存储在 HDFS

hive 中所有数据存储在 HDFS 上,包括数据模型中的 Table 、 Partition 、 Bucket

hive 的默认数据仓库目录是 /user/hive/warehouse ,在 hive-site.xml 中由 hive.meta
store.warehouse.dir 项定义

除了 External Table ,每个 Table 在数据仓库下都有一个相应的存储目录

当数据被加载至表中时 , 不会对数据进行任何转换,只是将数据移动到数据仓库目录。

Table 被删除时,表数据和元数据都被删除

External Table 被删除时,元数据都被删除,表数据不删除

表中的一个 Partition 对应表下的一个子目录
– 表 log -> /user/hive/warehouse/log
– log 中含 year 和 month 两个 partition ,则:
– 对于 year=2014 , mOnth=6 的子目录为 log/year=2014/mOnth=6
– 对于 year=2014 , mOnth=7 的子目录为 log/year=2014/mOnth=7

每个 Bucket 对应一个文件

//
hive 的数据模型





Database
Table
Partition
Bucket
File

//
shark 运行架构

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//
SparkSQL 运行架构

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

SparkSQL 运行架构
 TreeNode 体系
Logical Plans 、 Expressions 、 Physical Opera
tors 都可以使用 Tree 表示
– TreeNode 具备一些 scala collection 的操作能力
和树遍历能力,树的修改是以替换已有节点的方
式进行的。
– TreeNode ,内部带一个 children: Seq[BaseTyp
e] 表示孩子节点,具备 foreach 、 map 、 collec
t 等针对节点操作的方法,以及 transformDow
n 、 transformUp 这样的遍历树上节点,对匹配
节点实施变化的方法。
– 三种 trait

UnaryNode 一元节点,即只有一个孩子节
点。 Linit 、 Filter

BinaryNode 二元节点,即有左右孩子的二叉
节点。 Jion 、 Union

LeafNode 叶子节点,没有孩子节点的节点。
SetCommand

//
整体运行过程

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

05Spark Streaming原理和实践图文百度文库
http://wenku.baidu.com/view/03f5fe1e71fe910ef02df83f
05Spark Streaming原理和实践

//06Spark 机器学习入门.pdf
06Spark 机器学习入门图文百度文库
http://wenku.baidu.com/link?url=cexKzbgLGg9EYB8kqcb9XaxC3aaQm1r8RYFqjGwNulGxBXWVsvILFQQzT1akmsUVuWw5RMQ0cIs5okgDldxfVzehpBUadyiAsnDfDRKjnGa

什么是机器学习
 机器学习应用十分广泛
– 数据挖掘
– 计算机视觉
– 自然语言处理
– 生物特征识别
– 搜索引擎
– 医学诊断
– 检测信用卡欺诈
– 证券市场分析
– DNA 序列测序
– 语音和手写识别
– 战略游戏和机器人运用

机器学习分类
 监督学习从给定的训练数据集中学习出一个函数(模型),当新的数据到来时,可以根据这个函
数(模型)预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练
集中的目标是由人标注(标量 ) 的。常见的监督学习算法包括回归分析和统计分类。
– 二元分类是 ML 要解决的基本问题,将测试数据分成两个类。如垃圾邮件的判别、房贷是否允
许等等问题的判断。
– 多元分类是二元分类的逻辑延伸。例如,在因特网的流分类的情况下,根据问题的网页可以
被归类为体育,新闻,技术,或成人 / 色情,依此类推。
 无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
 半监督学习介于监督学习与无监督学习之间。
 增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到
的周围环境的反馈来做出判断。

实例演示
– K-Means 算法介绍和实例
– 协同过滤 算法介绍和实例

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

K-Means
 K-Means 是聚类的一个算法,是一个无监督学习,目标是将一部分实体根据某种意义上的相似度
和另一部分实体聚在一起。聚类通常被用于探索性的分析。
 算法:
– 1 选择 K 个点作为初始中心
– 2 将每个点指派到最近的中心 , 形成 K 个簇 ( 聚类 )
– 3 重新计算每个簇的中心
– 4 重复 2-3 直至中心不发生变化
 距离
– 绝对值距离
– 欧氏距离
– 闵可夫斯基距离
– 切比雪夫距离
– 马氏距离

协同过滤
 协同过滤常被应用于推荐系统。这些技术旨在补充用户 – 商品关联矩阵中所缺失的部分。
 MLlib 当前支持基于模型的协同过滤,其中用户和商品通过一小组隐性因子进行表达,并且这些
因子也用于预测缺失的元素。 MLLib 使用交替最小二乘法 (ALS) 来学习这些隐性因子。
 在 MLlib 中的实现有如下的参数 :
– numBlocks 是用于并行化计算的分块个数 ( 设置为 -1 为自动配置 ) 。
– rank 是模型中隐性因子的个数。
– iterations 是迭代的次数。
– lambda 是 ALS 的正则化参数。
– implicitPrefs 决定了是用显性反馈 ALS 的版本还是用适用隐性反馈数据集的版本。
– alpha 是一个针对于隐性反馈 ALS 版本的参数,这个参数决定了偏好行为强度的基准


推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 在List和Set集合中存储Object类型的数据元素 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • PHP中元素的计量单位是什么? ... [详细]
  • 特斯拉的盈利之谜:净利润未必源自汽车销售
    近日,特斯拉因客户投诉再度成为舆论焦点。一位车主反映其购买仅6天的Model 3在使用官方超级充电桩时突然断电,引发了对特斯拉产品质量和售后服务的质疑。然而,特斯拉的盈利模式并不仅限于汽车销售,其净利润可能更多地来自其他业务板块,如能源服务、自动驾驶技术和软件订阅等。这些多元化收入来源为特斯拉的财务表现提供了更多支撑。 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
  • 本文目录一览:1、php月薪多少合适2、php ... [详细]
  • 工作原理_一文理解 Spark 基础概念及工作原理
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了一文理解Spark基础概念及工作原理相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 本文详细介绍了如何使用JavaScript实现面部交换功能,包括基本原理和具体实现步骤。 ... [详细]
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • 短暂的人生中,IT和技术只是其中的一部分。无论换工作还是换行业,最终的目标是成功、荣誉和收获。本文探讨了技术人员如何跳出纯技术的局限,实现更大的职业发展。 ... [详细]
  • 提升开发技能的八大策略与方法
    许多前端开发人员和客户都在寻求具备创新和技术能力的专业人才,但往往由于缺乏足够的曝光度和声誉,这些人才难以被潜在客户发现。本文将介绍八种有效策略和方法,帮助开发者提升技能并增强市场竞争力。 ... [详细]
  • TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得
    TypeScript 实战分享:Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]
  • 作为140字符的开创者,Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播,甚至在多次全球性事件中超越传统媒体的速度。然而,为了支持2亿用户的高效使用,其背后的技术架构和系统设计则极为复杂,涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
author-avatar
diuhunpo_813
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有