热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

[dataguru]04SparkSQL原理和实践

01Spark生态和安装部署.pdf01Spark生态和安装部署图文百度文库http:wenku.baidu.comlink?urleCG-dk97jxI0wxtnywW3Sfqa

//01Spark生态和安装部署.pdf
01Spark生态和安装部署图文百度文库
http://wenku.baidu.com/link?url=eCG-dk97jxI0wxtnywW3Sfqa5uZrY2yADQ3jbAvrxBAcnEsHTlV940CwMLg2dQgaJMSVGFED5R4H0fbJBRBtFuKhnTxtJovRlASDB_UGXf_

课程回顾





Spark 是一个大数据处理引擎(或者说是开发包),其核心是 Spark Core ,基础是 RDD ;
Spark 应用程序有两部分组成: driver 和 executor
Spark 应用程序可以在多种集群里运行: Mesos 、 YARN 、 Spark Standalone 、 AWS 。。。
Spark 应用程序的部署工具是 spark-submit
Spark 的源码编译方法
– Maven
– Sbt
– make-distribution
 Spark 应用程序之所以快不仅仅是由于基于内存计算,还和其工作原理相关
– DAG
– Schedule
– Cache()
– …

《[dataguru]04SparkSQL原理和实践》 例子解析.png
《[dataguru]04SparkSQL原理和实践》 集群中运行架构.png
《[dataguru]04SparkSQL原理和实践》 集群中运行架构.png

04SparkSQL原理和实践图文百度文库
http://wenku.baidu.com/view/f24bb3e65727a5e9856a61e4.html

什么是 hive
 由 facebook 开源 , 最初用于解决海量结构化的日志数据统计问题 ;
– ETL(Extraction-Transformation-Loading) 工具
 构建于 hadoop 的 hdfs 和 mapred 之上 , 用于管理和查询结构化 / 非结构化数据的数据仓库
 设计目的是让 SQL 技能良好 , 但 Java 技能较弱的分析师可以查询海量数据
– 使用 HQL 作为查询接口
– 使用 HDFS 作为底层存储
– 使用 MapRed 作为执行层
 2008 年 facebook 把 hive 项目贡献给 Apache

为什么 hive
大数据的挑战
 海量数据时代的到来
– IDC 数据表明 , 全球企业数据正以 55% 的速度逐
年增长 ,IDC 预计 , 到 2020 年 , 全球数字信息总
量将增长 44 倍。以某网络视频公司为例 : 每天
新增数据量高达 500G 。
 非结构化数据的爆炸式增长
– 有超过 80% 的数据都是非结构化的 , 如网站访问
日志、移动互联网数据和聊天交流工具记录等。
 存储和查询分析需要
– 愈加激烈的竞争要求对客户进行更加深入细致的
分析。
 传统技术无法胜任大数据的存储、管理、分析和挖掘
– 传统的关系型数据库以及 BI 分析工具通常只能
处理 GB 级别的结构化数据

hive 的缺点
 Hive 的 HQL 表达的能力有限
– 有些复杂运算用 HQL 不易表达
 Hive 效率较低
– Hive 自动生成 MapReduce 作业 , 通常不够智能 ;
– HQL 调优困难 , 粒度较粗
– 可控性差

//hive 的运行架构
hive 系统架构
元数据存储( Metastore )
驱动( Driver )
– 编译器
– 优化器
– 执行器
接口
– CLI
– HWI
– ThriftServer
Hadoop
– 用 MapReduce 进行计算
– 用 HDFS 进行存储

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//

《[dataguru]04SparkSQL原理和实践》 hive 的运行架构.png

//
元数据存储( MetaStore )
– Derby
– MySQL

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//
hive 的运行架构
 驱动( Driver )
– 编译器( hive 的核心)

语法解析器( ParseDriver )
– 将查询字符串转换成解析树表达式

语法分析器( SemanticAnalyzer )
– 将解析树转换成基于语句块的内部查询表达式。

逻辑计划生成器( logical plan generator )
– 将内部查询表达式转换为逻辑计划,这些计划由逻辑操作树组成。
– 操作符是 hive 的最小处理单元 , 每个操作符处理代表一道 HDFS 操作或 MR 作业

查询计划生成器( query plan generator )
– 将逻辑计划转化成物理计划( MR Task )
– 优化器

优化器是一个演化组件。当前,它的规则是:列修剪,谓词下压。
– 执行器

编译器将操作树切分为一个 Task 链( DAG ),执行器会顺序执行其中所有 Task ;如
果 Task 链( DAG )不存在依赖关系时,可采用并发执行的方式进行 Job 的执行

//
hive 的运行架构
 接口
– CLI :为命令行工具,为默认服务

启动方式 bin/hive 或 bin/hive –service cli
– hwi :为 web 接口,可以通过浏览器访问 hive ,默认端口 9999

启动方式为 bin/hive –service hwi 。
– ThriftServer :通过 Thrift 对外提供服务,默认端口 10000

启动方式为 bin/hive –service hiveserver 。
 其他服务( bin/hive –service –help )
– metastore ( bin/hive –service metastore )
– hiveserver2 ( bin/hive –service hiveserver2 )

HiveServer2 是 HiveServer 的改进版本,它提供新的 Thrift
API 来处理 JDBC 或者 ODBC 客户端, Kerberos 身份验证,
多个客户端并发

HiveServer2 还提供了新的 CLI : BeeLine , Beeline 是 hiv
e 0.11 引入的新的交互式 CLI ,它基于 SQLLine ,可以作为
Hive JDBC Client 端访问 Hive Server 2 ,启动一个 beeline
就是维护了一个 session 。

//
 Hadoop
– 用 MapReduce 进行运算
– 存储在 HDFS

hive 中所有数据存储在 HDFS 上,包括数据模型中的 Table 、 Partition 、 Bucket

hive 的默认数据仓库目录是 /user/hive/warehouse ,在 hive-site.xml 中由 hive.meta
store.warehouse.dir 项定义

除了 External Table ,每个 Table 在数据仓库下都有一个相应的存储目录

当数据被加载至表中时 , 不会对数据进行任何转换,只是将数据移动到数据仓库目录。

Table 被删除时,表数据和元数据都被删除

External Table 被删除时,元数据都被删除,表数据不删除

表中的一个 Partition 对应表下的一个子目录
– 表 log -> /user/hive/warehouse/log
– log 中含 year 和 month 两个 partition ,则:
– 对于 year=2014 , mOnth=6 的子目录为 log/year=2014/mOnth=6
– 对于 year=2014 , mOnth=7 的子目录为 log/year=2014/mOnth=7

每个 Bucket 对应一个文件

//
hive 的数据模型





Database
Table
Partition
Bucket
File

//
shark 运行架构

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

//
SparkSQL 运行架构

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

SparkSQL 运行架构
 TreeNode 体系
Logical Plans 、 Expressions 、 Physical Opera
tors 都可以使用 Tree 表示
– TreeNode 具备一些 scala collection 的操作能力
和树遍历能力,树的修改是以替换已有节点的方
式进行的。
– TreeNode ,内部带一个 children: Seq[BaseTyp
e] 表示孩子节点,具备 foreach 、 map 、 collec
t 等针对节点操作的方法,以及 transformDow
n 、 transformUp 这样的遍历树上节点,对匹配
节点实施变化的方法。
– 三种 trait

UnaryNode 一元节点,即只有一个孩子节
点。 Linit 、 Filter

BinaryNode 二元节点,即有左右孩子的二叉
节点。 Jion 、 Union

LeafNode 叶子节点,没有孩子节点的节点。
SetCommand

//
整体运行过程

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

05Spark Streaming原理和实践图文百度文库
http://wenku.baidu.com/view/03f5fe1e71fe910ef02df83f
05Spark Streaming原理和实践

//06Spark 机器学习入门.pdf
06Spark 机器学习入门图文百度文库
http://wenku.baidu.com/link?url=cexKzbgLGg9EYB8kqcb9XaxC3aaQm1r8RYFqjGwNulGxBXWVsvILFQQzT1akmsUVuWw5RMQ0cIs5okgDldxfVzehpBUadyiAsnDfDRKjnGa

什么是机器学习
 机器学习应用十分广泛
– 数据挖掘
– 计算机视觉
– 自然语言处理
– 生物特征识别
– 搜索引擎
– 医学诊断
– 检测信用卡欺诈
– 证券市场分析
– DNA 序列测序
– 语音和手写识别
– 战略游戏和机器人运用

机器学习分类
 监督学习从给定的训练数据集中学习出一个函数(模型),当新的数据到来时,可以根据这个函
数(模型)预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练
集中的目标是由人标注(标量 ) 的。常见的监督学习算法包括回归分析和统计分类。
– 二元分类是 ML 要解决的基本问题,将测试数据分成两个类。如垃圾邮件的判别、房贷是否允
许等等问题的判断。
– 多元分类是二元分类的逻辑延伸。例如,在因特网的流分类的情况下,根据问题的网页可以
被归类为体育,新闻,技术,或成人 / 色情,依此类推。
 无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。
 半监督学习介于监督学习与无监督学习之间。
 增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到
的周围环境的反馈来做出判断。

实例演示
– K-Means 算法介绍和实例
– 协同过滤 算法介绍和实例

《[dataguru]04SparkSQL原理和实践》 Paste_Image.png

K-Means
 K-Means 是聚类的一个算法,是一个无监督学习,目标是将一部分实体根据某种意义上的相似度
和另一部分实体聚在一起。聚类通常被用于探索性的分析。
 算法:
– 1 选择 K 个点作为初始中心
– 2 将每个点指派到最近的中心 , 形成 K 个簇 ( 聚类 )
– 3 重新计算每个簇的中心
– 4 重复 2-3 直至中心不发生变化
 距离
– 绝对值距离
– 欧氏距离
– 闵可夫斯基距离
– 切比雪夫距离
– 马氏距离

协同过滤
 协同过滤常被应用于推荐系统。这些技术旨在补充用户 – 商品关联矩阵中所缺失的部分。
 MLlib 当前支持基于模型的协同过滤,其中用户和商品通过一小组隐性因子进行表达,并且这些
因子也用于预测缺失的元素。 MLLib 使用交替最小二乘法 (ALS) 来学习这些隐性因子。
 在 MLlib 中的实现有如下的参数 :
– numBlocks 是用于并行化计算的分块个数 ( 设置为 -1 为自动配置 ) 。
– rank 是模型中隐性因子的个数。
– iterations 是迭代的次数。
– lambda 是 ALS 的正则化参数。
– implicitPrefs 决定了是用显性反馈 ALS 的版本还是用适用隐性反馈数据集的版本。
– alpha 是一个针对于隐性反馈 ALS 版本的参数,这个参数决定了偏好行为强度的基准


推荐阅读
  • 本文介绍了一个在线急等问题解决方法,即如何统计数据库中某个字段下的所有数据,并将结果显示在文本框里。作者提到了自己是一个菜鸟,希望能够得到帮助。作者使用的是ACCESS数据库,并且给出了一个例子,希望得到的结果是560。作者还提到自己已经尝试了使用"select sum(字段2) from 表名"的语句,得到的结果是650,但不知道如何得到560。希望能够得到解决方案。 ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
  • PHP组合工具以及开发所需的工具
    本文介绍了PHP开发中常用的组合工具和开发所需的工具。对于数据分析软件,包括Excel、hihidata、SPSS、SAS、MARLAB、Eview以及各种BI与报表工具等。同时还介绍了PHP开发所需的PHP MySQL Apache集成环境,包括推荐的AppServ等版本。 ... [详细]
  • python计算数据包校验和(python接口数据校验)
    本文目录一览:1、怎么用python算p值和t检验 ... [详细]
  • 今天周六,原则上要休息,但想到下周还有一堆任务,还是先做一部分工作吧,就把之前做的票面设计器改了改,增加了上传图片和更换背景底图的功能。现在打算整理下这个设计器,也算对齐一个总结。不过这属于我们部门的 ... [详细]
  • mysqli预处理编译的深入理解【MySQL】
    数据库|mysql教程php教程,用户数据库-mysql教程bitsCN.com记得以前php点点通也写过mysqli的预处理的php教学,那时候只是看书乱写的,没懂原理,数月过后 ... [详细]
  • 推荐一个ASP的内容管理框架(ASP Nuke)的优势和适用场景
    本文推荐了一个ASP的内容管理框架ASP Nuke,并介绍了其主要功能和特点。ASP Nuke支持文章新闻管理、投票、论坛等主要内容,并可以自定义模块。最新版本为0.8,虽然目前仍处于Alpha状态,但作者表示会继续更新完善。文章还分析了使用ASP的原因,包括ASP相对较小、易于部署和较简单等优势,适用于建立门户、网站的组织和小公司等场景。 ... [详细]
  • 本文介绍了关于汉庭酒店价格的知识点,提供了一篇由congdi7904投稿的技术文章,希望能帮到读者解决相关技术问题。同时还提供了汉庭酒店的官方链接和转载信息。请注意,引用汉庭酒店需遵循CC 4.0 BY-SA版权协议。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • Sleuth+zipkin链路追踪SpringCloud微服务的解决方案
    在庞大的微服务群中,随着业务扩展,微服务个数增多,系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来,实现请求链路跟踪。通过Feign调用和Request传递TraceId,将整个调用链路的服务日志归组合并,提供定位和追踪的功能。 ... [详细]
  • 本文介绍了iOS开发中检测和解决内存泄漏的方法,包括静态分析、使用instruments检查内存泄漏以及代码测试等。同时还介绍了最能挣钱的行业,包括互联网行业、娱乐行业、教育行业、智能行业和老年服务行业,并提供了选行业的技巧。 ... [详细]
  • Python脚本编写创建输出数据库并添加模型和场数据的方法
    本文介绍了使用Python脚本编写创建输出数据库并添加模型数据和场数据的方法。首先导入相应模块,然后创建输出数据库并添加材料属性、截面、部件实例、分析步和帧、节点和单元等对象。接着向输出数据库中添加场数据和历程数据,本例中只添加了节点位移。最后保存数据库文件并关闭文件。文章还提供了部分代码和Abaqus操作步骤。另外,作者还建立了关于Abaqus的学习交流群,欢迎加入并提问。 ... [详细]
  • 如何使用PLEX播放组播、抓取信号源以及设置路由器
    本文介绍了如何使用PLEX播放组播、抓取信号源以及设置路由器。通过使用xTeve软件和M3U源,用户可以在PLEX上实现直播功能,并且可以自动匹配EPG信息和定时录制节目。同时,本文还提供了从华为itv盒子提取组播地址的方法以及如何在ASUS固件路由器上设置IPTV。在使用PLEX之前,建议先使用VLC测试是否可以正常播放UDPXY转发的iptv流。最后,本文还介绍了docker版xTeve的设置方法。 ... [详细]
  • 读手语图像识别论文笔记2
    文章目录一、前言二、笔记1.名词解释2.流程分析上一篇快速门:读手语图像识别论文笔记1(手语识别背景和方法)一、前言一句:“做完了&#x ... [详细]
  • 【前端工具】nodejs+npm+vue 安装(windows)
    预备先看看这几个是干嘛的,相互的关系是啥。nodejs是语言,类比到php。npm是个包管理,类比到composer。vue是个框架&# ... [详细]
author-avatar
diuhunpo_813
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有