[dataguru]04SparkSQL原理和实践

作者：diuhunpo_813 | 来源：互联网 | 2023-08-25 19:28

01Spark生态和安装部署.pdf01Spark生态和安装部署图文百度文库http:wenku.baidu.comlink?urleCG-dk97jxI0wxtnywW3Sfqa

//01Spark生态和安装部署.pdf
01Spark生态和安装部署图文百度文库
http://wenku.baidu.com/link?url=eCG-dk97jxI0wxtnywW3Sfqa5uZrY2yADQ3jbAvrxBAcnEsHTlV940CwMLg2dQgaJMSVGFED5R4H0fbJBRBtFuKhnTxtJovRlASDB_UGXf_

课程回顾





Spark 是一个大数据处理引擎(或者说是开发包),其核心是 Spark Core ,基础是 RDD ;
Spark 应用程序有两部分组成: driver 和 executor
Spark 应用程序可以在多种集群里运行: Mesos 、 YARN 、 Spark Standalone 、 AWS 。。。
Spark 应用程序的部署工具是 spark-submit
Spark 的源码编译方法
– Maven
– Sbt
– make-distribution
 Spark 应用程序之所以快不仅仅是由于基于内存计算,还和其工作原理相关
– DAG
– Schedule
– Cache()
– &＃8230;

《[dataguru]04SparkSQL原理和实践》例子解析.png
集群中运行架构.png
集群中运行架构.png

04SparkSQL原理和实践图文百度文库
http://wenku.baidu.com/view/f24bb3e65727a5e9856a61e4.html

什么是 hive
 由 facebook 开源 , 最初用于解决海量结构化的日志数据统计问题 ;
– ETL(Extraction-Transformation-Loading) 工具
 构建于 hadoop 的 hdfs 和 mapred 之上 , 用于管理和查询结构化 / 非结构化数据的数据仓库
 设计目的是让 SQL 技能良好 , 但 Java 技能较弱的分析师可以查询海量数据
– 使用 HQL 作为查询接口
– 使用 HDFS 作为底层存储
– 使用 MapRed 作为执行层
 2008 年 facebook 把 hive 项目贡献给 Apache

为什么 hive
大数据的挑战
 海量数据时代的到来
– IDC 数据表明 , 全球企业数据正以 55% 的速度逐
年增长 ,IDC 预计 , 到 2020 年 , 全球数字信息总
量将增长 44 倍。以某网络视频公司为例 : 每天
新增数据量高达 500G 。
 非结构化数据的爆炸式增长
– 有超过 80% 的数据都是非结构化的 , 如网站访问
日志、移动互联网数据和聊天交流工具记录等。
 存储和查询分析需要
– 愈加激烈的竞争要求对客户进行更加深入细致的
分析。
 传统技术无法胜任大数据的存储、管理、分析和挖掘
– 传统的关系型数据库以及 BI 分析工具通常只能
处理 GB 级别的结构化数据

hive 的缺点
 Hive 的 HQL 表达的能力有限
– 有些复杂运算用 HQL 不易表达
 Hive 效率较低
– Hive 自动生成 MapReduce 作业 , 通常不够智能 ;
– HQL 调优困难 , 粒度较粗
– 可控性差

//hive 的运行架构
hive 系统架构
元数据存储( Metastore )
驱动( Driver )
– 编译器
– 优化器
– 执行器
接口
– CLI
– HWI
– ThriftServer
Hadoop
– 用 MapReduce 进行计算
– 用 HDFS 进行存储

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

《[dataguru]04SparkSQL原理和实践》 hive 的运行架构.png

//
元数据存储( MetaStore )
– Derby
– MySQL

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//
hive 的运行架构
 驱动( Driver )
– 编译器( hive 的核心)
●
语法解析器( ParseDriver )
– 将查询字符串转换成解析树表达式
●
语法分析器( SemanticAnalyzer )
– 将解析树转换成基于语句块的内部查询表达式。
●
逻辑计划生成器( logical plan generator )
– 将内部查询表达式转换为逻辑计划,这些计划由逻辑操作树组成。
– 操作符是 hive 的最小处理单元 , 每个操作符处理代表一道 HDFS 操作或 MR 作业
●
查询计划生成器( query plan generator )
– 将逻辑计划转化成物理计划( MR Task )
– 优化器
●
优化器是一个演化组件。当前,它的规则是:列修剪,谓词下压。
– 执行器
●
编译器将操作树切分为一个 Task 链( DAG ),执行器会顺序执行其中所有 Task ;如
果 Task 链( DAG )不存在依赖关系时,可采用并发执行的方式进行 Job 的执行

//
hive 的运行架构
 接口
– CLI :为命令行工具,为默认服务
●
启动方式 bin/hive 或 bin/hive &＃8211;service cli
– hwi :为 web 接口,可以通过浏览器访问 hive ,默认端口 9999
●
启动方式为 bin/hive &＃8211;service hwi 。
– ThriftServer :通过 Thrift 对外提供服务,默认端口 10000
●
启动方式为 bin/hive &＃8211;service hiveserver 。
 其他服务( bin/hive &＃8211;service –help )
– metastore ( bin/hive &＃8211;service metastore )
– hiveserver2 ( bin/hive &＃8211;service hiveserver2 )
●
HiveServer2 是 HiveServer 的改进版本,它提供新的 Thrift
API 来处理 JDBC 或者 ODBC 客户端, Kerberos 身份验证,
多个客户端并发
●
HiveServer2 还提供了新的 CLI : BeeLine , Beeline 是 hiv
e 0.11 引入的新的交互式 CLI ,它基于 SQLLine ,可以作为
Hive JDBC Client 端访问 Hive Server 2 ,启动一个 beeline
就是维护了一个 session 。

//
 Hadoop
– 用 MapReduce 进行运算
– 存储在 HDFS
●
hive 中所有数据存储在 HDFS 上,包括数据模型中的 Table 、 Partition 、 Bucket
●
hive 的默认数据仓库目录是 /user/hive/warehouse ,在 hive-site.xml 中由 hive.meta
store.warehouse.dir 项定义
●
除了 External Table ,每个 Table 在数据仓库下都有一个相应的存储目录
●
当数据被加载至表中时 , 不会对数据进行任何转换,只是将数据移动到数据仓库目录。
●
Table 被删除时,表数据和元数据都被删除
●
External Table 被删除时,元数据都被删除,表数据不删除
●
表中的一个 Partition 对应表下的一个子目录
– 表 log -> /user/hive/warehouse/log
– log 中含 year 和 month 两个 partition ,则:
– 对于 year=2014 , mOnth=6 的子目录为 log/year=2014/mOnth=6
– 对于 year=2014 , mOnth=7 的子目录为 log/year=2014/mOnth=7
●
每个 Bucket 对应一个文件

//
hive 的数据模型





Database
Table
Partition
Bucket
File

//
shark 运行架构

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//
SparkSQL 运行架构

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

SparkSQL 运行架构
 TreeNode 体系
Logical Plans 、 Expressions 、 Physical Opera
tors 都可以使用 Tree 表示
– TreeNode 具备一些 scala collection 的操作能力
和树遍历能力,树的修改是以替换已有节点的方
式进行的。
– TreeNode ,内部带一个 children: Seq[BaseTyp
e] 表示孩子节点,具备 foreach 、 map 、 collec
t 等针对节点操作的方法,以及 transformDow
n 、 transformUp 这样的遍历树上节点,对匹配
节点实施变化的方法。
– 三种 trait
●
UnaryNode 一元节点,即只有一个孩子节
点。 Linit 、 Filter
●
BinaryNode 二元节点,即有左右孩子的二叉
节点。 Jion 、 Union
●
LeafNode 叶子节点,没有孩子节点的节点。
SetCommand

//
整体运行过程

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

05Spark Streaming原理和实践图文百度文库
http://wenku.baidu.com/view/03f5fe1e71fe910ef02df83f
05Spark Streaming原理和实践

//06Spark 机器学习入门.pdf
06Spark 机器学习入门图文百度文库
http://wenku.baidu.com/link?url=cexKzbgLGg9EYB8kqcb9XaxC3aaQm1r8RYFqjGwNulGxBXWVsvILFQQzT1akmsUVuWw5RMQ0cIs5okgDldxfVzehpBUadyiAsnDfDRKjnGa

什么是机器学习
 机器学习应用十分广泛
– 数据挖掘
– 计算机视觉
– 自然语言处理
– 生物特征识别
– 搜索引擎
– 医学诊断
– 检测信用卡欺诈
– 证券市场分析
– DNA 序列测序
– 语音和手写识别
– 战略游戏和机器人运用

机器学习分类
 监督学习从给定的训练数据集中学习出一个函数(模型),当新的数据到来时,可以根据这个函
数(模型)预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练
集中的目标是由人标注(标量 ) 的。常见的监督学习算法包括回归分析和统计分类。
– 二元分类是 ML 要解决的基本问题,将测试数据分成两个类。如垃圾邮件的判别、房贷是否允
许等等问题的判断。
– 多元分类是二元分类的逻辑延伸。例如,在因特网的流分类的情况下,根据问题的网页可以
被归类为体育,新闻,技术,或成人 / 色情,依此类推。
 无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
 半监督学习介于监督学习与无监督学习之间。
 增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到
的周围环境的反馈来做出判断。

实例演示
– K-Means 算法介绍和实例
– 协同过滤算法介绍和实例

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

K-Means
 K-Means 是聚类的一个算法,是一个无监督学习,目标是将一部分实体根据某种意义上的相似度
和另一部分实体聚在一起。聚类通常被用于探索性的分析。
 算法:
– 1 选择 K 个点作为初始中心
– 2 将每个点指派到最近的中心 , 形成 K 个簇 ( 聚类 )
– 3 重新计算每个簇的中心
– 4 重复 2-3 直至中心不发生变化
 距离
– 绝对值距离
– 欧氏距离
– 闵可夫斯基距离
– 切比雪夫距离
– 马氏距离

协同过滤
 协同过滤常被应用于推荐系统。这些技术旨在补充用户 &＃8211; 商品关联矩阵中所缺失的部分。
 MLlib 当前支持基于模型的协同过滤,其中用户和商品通过一小组隐性因子进行表达,并且这些
因子也用于预测缺失的元素。 MLLib 使用交替最小二乘法 (ALS) 来学习这些隐性因子。
 在 MLlib 中的实现有如下的参数 :
– numBlocks 是用于并行化计算的分块个数 ( 设置为 -1 为自动配置 ) 。
– rank 是模型中隐性因子的个数。
– iterations 是迭代的次数。
– lambda 是 ALS 的正则化参数。
– implicitPrefs 决定了是用显性反馈 ALS 的版本还是用适用隐性反馈数据集的版本。
– alpha 是一个针对于隐性反馈 ALS 版本的参数,这个参数决定了偏好行为强度的基准

推荐阅读

js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
get
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32
copy
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
get
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
get
特斯拉的盈利之谜：净利润未必源自汽车销售

近日，特斯拉因客户投诉再度成为舆论焦点。一位车主反映其购买仅6天的Model 3在使用官方超级充电桩时突然断电，引发了对特斯拉产品质量和售后服务的质疑。然而，特斯拉的盈利模式并不仅限于汽车销售，其净利润可能更多地来自其他业务板块，如能源服务、自动驾驶技术和软件订阅等。这些多元化收入来源为特斯拉的财务表现提供了更多支撑。 ... [详细]

蜡笔小新 2024-10-29 20:58:57
format
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
get
php的月均薪酬达到20k（php程序员月薪多少）

本文目录一览：1、php月薪多少合适2、php ... [详细]

蜡笔小新 2024-10-16 15:22:52
get
工作原理_一文理解 Spark 基础概念及工作原理

篇首语：本文由编程笔记#小编为大家整理，主要介绍了一文理解Spark基础概念及工作原理相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-14 04:29:30
get
JavaScript面部交换代码及实现方法

本文详细介绍了如何使用JavaScript实现面部交换功能，包括基本原理和具体实现步骤。 ... [详细]

蜡笔小新 2024-11-14 15:54:06
format
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
format
专家观点：技术不应局限于自我娱乐，需融入市场思维

短暂的人生中，IT和技术只是其中的一部分。无论换工作还是换行业，最终的目标是成功、荣誉和收获。本文探讨了技术人员如何跳出纯技术的局限，实现更大的职业发展。 ... [详细]

蜡笔小新 2024-11-14 10:24:10
ip
提升开发技能的八大策略与方法

许多前端开发人员和客户都在寻求具备创新和技术能力的专业人才，但往往由于缺乏足够的曝光度和声誉，这些人才难以被潜在客户发现。本文将介绍八种有效策略和方法，帮助开发者提升技能并增强市场竞争力。 ... [详细]

蜡笔小新 2024-11-04 17:10:13
js
TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得

TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]

蜡笔小新 2024-11-04 12:55:23
ip
Twitter架构深度解析与学习心得

作为140字符的开创者，Twitter看似简单却异常复杂。其简洁之处在于仅用140个字符就能实现信息的高效传播，甚至在多次全球性事件中超越传统媒体的速度。然而，为了支持2亿用户的高效使用，其背后的技术架构和系统设计则极为复杂，涉及高并发处理、数据存储和实时传输等多个技术挑战。 ... [详细]

蜡笔小新 2024-10-31 17:58:20
ip
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15

diuhunpo_813

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章