热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Catalyst揭秘Day1Catalyst本地解析

Catalyst本地解析今天开始讲下Catalyst,这是我们必须精通的内容之一:基本概念catalyst是一种解析器引擎,而不仅是sql解析引擎。如果研究下catalyst,可以

Catalyst本地解析

今天开始讲下Catalyst,这是我们必须精通的内容之一:

  1. 在Spark2.x中,主要会以Dataframe和DataSet为api,无论是Dataframe和DataSet,底层都依赖Catalyst和Tungsten。
  2. 根据官方的披露,后续所有的框架都会依赖Catalyst和Tungsten。
    从定位上看,catalyst是在SparkSql上先做实验,后面是机器学习,现在要推到各个子框架。

基本概念

catalyst是一种解析器引擎,而不仅是sql解析引擎。如果研究下catalyst,可以在当中非常方便的添加你想做的任意新的优化技术,在优化技巧方面可以随意的扩展。也很少有解析器像catalyst这样可以方便的增加新的数据类型。

catalyst的数据结构是棵树状结构,并有一系列的rules的解析规则。我们以前在很多语言开发的时候,都会解析成一颗语法树,catalyst是把sql和dataframe的内容用tree来存储。第二个层面,Catalyst中有一套解析规则,怎么对树进行解析和优化。

从jvm对内存的管理来说,内存中的所有object也是树状结构的,那catalyst用一棵树在存储的话,每个节点都是类的实例,都有0个或多个子节点,并且节点是不可变,只能把一棵树从一种状态transform到另一种状态。

Tree结构解析

Catalyst主要包含两点:

  1. Tree数据结构;
  2. Rules解析规则;
  3. 优化方式;

如何理解Tree数据结构:
比如表达式 x + (5 + 10),当中包含:
Literal:5 10
Attribute:x
Action:Add

可以用下图表示:

技术分享

Catalyst中使用一系列的Rules来解析和优化Tree数据结构,对于上述的树状数据结构,优化过程可以如下,把常量合并在一起。由于表达式是一个对象,对象有类型,所以可以使用模式匹配,对于不认识的类型可以忽略,并且添加新的类型会很容易,导致了我们的扩展和操作非常的方便,只要不断执行匹配规则就行。当我们写优化规则的时候,只需要考虑不同的算子,根本就不用这棵树有多大。因为catalyst会循环运用我们的规则,只到这棵树不可以被解析和优化,这让我们会很方便改变规则,也会很方便优化引擎。

tree.tranform{
        case Add(Literal(x),Literal(y)) => Literal(x+y)
        case
        ...
    }

执行过程

一般来说分为六步:

技术分享

  1. SQL、Dataframe、DataSet都会变成Unrecognized Logic Plan未识别的逻辑计划,这是一棵抽象语法树,数据表和列名等都还未被识别。
  2. 用catalog来识别表和列名等东西,并且会对值进行一些简单的计算,建立Logic Plan。
  3. 运用rules对上一阶段成果进行优化,比如谓词下推,形成Optimized Logic Plan优化后的逻辑计划。
  4. 根据基于成本的考量,比如将小表进行broadcast,形成pyshical plan物理计划。 在做sparksql时,其实做不了啥太多的优化。物理计划已经是基于rdd角度的考虑了。

技术分享

  1. 会根据评估模型,在很多个物理计划的选项中,选中最快的物理计划。由于有这个环节,dataframe一般情况下比直接写rdd运行快。
  2. 借助scala语言的高级特性quasiquotes,将物理计划,直接变成jvm的字节码。基于rdd进行编程。

从整个过程,我们可以看到在框架抽象的时候,并不是越底层越高效,因为如果能加入优化层次,会对开发者有很大的助力。

欲知后事如何,且听下回分解!

DT大数据每天晚上20:00YY频道现场授课频道68917580

Catalyst揭秘 Day1 Catalyst本地解析


推荐阅读
  • 问题描述为某音像店开发一个迷你DVD管理器,最多可存6张DVD,实现碟片的管理。管理器具备的功能主要有:1、查看DVD信息。菜单选择查看功能,展示DVD的信息。2、新增DVD信息选 ... [详细]
  • 1.简述OC中内存管理机制。与retain配对使用的方法是dealloc还是release,为什么?需要与alloc配对使用的方法是dealloc还是release,为什么?rea ... [详细]
  • jenkins 邮件配置步骤
    一、进行系统管理中的邮件配置步骤:1、设置ExtendedE-mailNotification二、对构建的job添加邮件发送的步骤: ... [详细]
  • http:nickycc.lofter.compost23e2a6_17d6a07http:blog.csdn.netl25000articledetails46842013htt ... [详细]
  • 201720181 20155208 《信息安全系统设计基础》第五周学习总结
    2017-2018-120155208《信息安全系统设计基础》第五周学习总结学习目标理解逆向的概念掌握X86汇编基础,能够阅读(反)汇编代码了解ISA(指令集体系结构)理解函数调用 ... [详细]
  • 1.亥姆霍兹线圈:用于制造一个均匀磁场并垂直于电子运行轨道两个并列的线圈2.LR回路:基尔霍夫定律不成立,因为有自感存在cos2wt或者sin2wt的时间平均值是12思考: ... [详细]
  • 绑定事件可以对键值对的方式添加事件$('input').bind({mouseover:function(){alert('移入');},mouse ... [详细]
  • 本文目录一览:1、基于jsp的图书管理系统的设计与实现的源代码 ... [详细]
  • 实验十:指针
    #includevoidsplitfloat(floatx,int*intpart,float*fracpart);intmain(void){intintpa ... [详细]
  • 建立页面index.jsp ... [详细]
  • C++学习之Visual Studio安装以及首次使用
    一、安装VisualStudio首先下载VisualStudio链接:http:pan.baidu.coms1pLhJt0Z密码:uqyc将.ios文件解压得到以下文件:点击vs_ ... [详细]
  • 自己的macbookPro只有128G的硬盘,存储空间经常不足,终于找到了个大文件,,UsersusrnameLibraryContainerscom.tencent.qqData ... [详细]
  • php购物车页面如何做,HTML代码实现简易购物车
    网上关于购物车实现的代码非常多,本次的这篇文章主要是和大家分享了HTML代码实现简易购物车,有需要的小伙伴可以看一下,接下来讲解一下具体的 ... [详细]
  • # 运维小白的成长日记第七天OSI七层传输层/应用层精讲!
    运维小白的成长日记第七天-OSI七层传输层应用层精讲!1、IP提供了点到点的连续接,通过IP地址可以找到目标主机。但是目标主机有很多应用,服务器到底使用哪个应用来响应客户端?通过端 ... [详细]
  • 卸载mysql残留【MySQL】
    数据库|mysql教程卸载mysql残留数据库-mysql教程A、在控制面板中查看是否有mysql,有则进行卸载。或运行相同版本的mysql安装文件,选择“remove”进行卸载。 ... [详细]
author-avatar
值兰修女_662
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有