Catalyst揭秘Day1Catalyst本地解析

作者：值兰修女_662 | 来源：互联网 | 2024-10-19 13:21

Catalyst本地解析今天开始讲下Catalyst，这是我们必须精通的内容之一：基本概念catalyst是一种解析器引擎，而不仅是sql解析引擎。如果研究下catalyst，可以

Catalyst本地解析

今天开始讲下Catalyst，这是我们必须精通的内容之一：

在Spark2.x中，主要会以Dataframe和DataSet为api，无论是Dataframe和DataSet，底层都依赖Catalyst和Tungsten。
根据官方的披露，后续所有的框架都会依赖Catalyst和Tungsten。
从定位上看，catalyst是在SparkSql上先做实验，后面是机器学习，现在要推到各个子框架。

基本概念

catalyst是一种解析器引擎，而不仅是sql解析引擎。如果研究下catalyst，可以在当中非常方便的添加你想做的任意新的优化技术，在优化技巧方面可以随意的扩展。也很少有解析器像catalyst这样可以方便的增加新的数据类型。

catalyst的数据结构是棵树状结构，并有一系列的rules的解析规则。我们以前在很多语言开发的时候，都会解析成一颗语法树，catalyst是把sql和dataframe的内容用tree来存储。第二个层面，Catalyst中有一套解析规则，怎么对树进行解析和优化。

从jvm对内存的管理来说，内存中的所有object也是树状结构的，那catalyst用一棵树在存储的话，每个节点都是类的实例，都有0个或多个子节点，并且节点是不可变，只能把一棵树从一种状态transform到另一种状态。

Tree结构解析

Catalyst主要包含两点：

Tree数据结构;
Rules解析规则;
优化方式;

如何理解Tree数据结构：
比如表达式 x + (5 + 10)，当中包含：
Literal:5 10
Attribute:x
Action:Add

可以用下图表示：

技术分享

Catalyst中使用一系列的Rules来解析和优化Tree数据结构，对于上述的树状数据结构，优化过程可以如下，把常量合并在一起。由于表达式是一个对象，对象有类型，所以可以使用模式匹配，对于不认识的类型可以忽略，并且添加新的类型会很容易，导致了我们的扩展和操作非常的方便，只要不断执行匹配规则就行。当我们写优化规则的时候，只需要考虑不同的算子，根本就不用这棵树有多大。因为catalyst会循环运用我们的规则，只到这棵树不可以被解析和优化，这让我们会很方便改变规则，也会很方便优化引擎。

tree.tranform{
        case Add(Literal(x),Literal(y)) => Literal(x+y)
        case
        ...
    }

执行过程

一般来说分为六步：

技术分享

SQL、Dataframe、DataSet都会变成Unrecognized Logic Plan未识别的逻辑计划，这是一棵抽象语法树，数据表和列名等都还未被识别。
用catalog来识别表和列名等东西，并且会对值进行一些简单的计算，建立Logic Plan。
运用rules对上一阶段成果进行优化，比如谓词下推，形成Optimized Logic Plan优化后的逻辑计划。
根据基于成本的考量，比如将小表进行broadcast，形成pyshical plan物理计划。在做sparksql时，其实做不了啥太多的优化。物理计划已经是基于rdd角度的考虑了。

技术分享

会根据评估模型，在很多个物理计划的选项中，选中最快的物理计划。由于有这个环节，dataframe一般情况下比直接写rdd运行快。
借助scala语言的高级特性quasiquotes，将物理计划，直接变成jvm的字节码。基于rdd进行编程。

从整个过程，我们可以看到在框架抽象的时候，并不是越底层越高效，因为如果能加入优化层次，会对开发者有很大的助力。

欲知后事如何，且听下回分解!

DT大数据每天晚上20：00YY频道现场授课频道68917580

Catalyst揭秘 Day1 Catalyst本地解析

推荐阅读

js
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
js
深入理解OAuth认证机制

本文介绍了OAuth认证协议的核心概念及其工作原理。OAuth是一种开放标准，旨在为第三方应用提供安全的用户资源访问授权，同时确保用户的账户信息（如用户名和密码）不会暴露给第三方。 ... [详细]

蜡笔小新 2024-12-28 12:07:46
js
2023 ARM嵌入式系统全国技术巡讲

2023 ARM嵌入式系统全国技术巡讲旨在分享ARM公司在半导体知识产权(IP)领域的最新进展。作为全球领先的IP提供商，ARM在嵌入式处理器市场占据主导地位，其产品广泛应用于90%以上的嵌入式设备中。此次巡讲将邀请来自ARM、飞思卡尔以及华清远见教育集团的行业专家，共同探讨当前嵌入式系统的前沿技术和应用。 ... [详细]

蜡笔小新 2024-12-28 11:58:48
js
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
js
深入理解 Oracle 存储函数：计算员工年收入

本文介绍如何使用 Oracle 存储函数查询特定员工的年收入。我们将详细解释存储函数的创建过程，并提供完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 09:49:42
js
2018回顾与2019展望

本文总结了2018年的关键成就，包括职业变动、购车、考取驾照等重要事件，并分享了读书、工作、家庭和朋友方面的感悟。同时，展望2019年，制定了健康、软实力提升和技术学习的具体目标。 ... [详细]

蜡笔小新 2024-12-28 09:10:26
js
四载相伴，与51CTO学院共成长

在计算机技术的学习道路上，51CTO学院以其专业性和专注度给我留下了深刻印象。从2012年接触计算机到2014年开始系统学习网络技术和安全领域，51CTO学院始终是我信赖的学习平台。 ... [详细]

蜡笔小新 2024-12-28 08:20:07
js
CSS 布局：液态三栏混合宽度布局

本文介绍了如何使用 CSS 实现液态的三栏布局，其中各栏具有不同的宽度设置。通过调整容器和内容区域的属性，可以实现灵活且响应式的网页设计。 ... [详细]

蜡笔小新 2024-12-28 02:40:28
js
Linux 系统启动故障排除指南：MBR 和 GRUB 问题

本文详细介绍了 Linux 系统启动过程中常见的 MBR 扇区和 GRUB 引导程序故障及其解决方案，涵盖从备份、模拟故障到恢复的具体步骤。 ... [详细]

蜡笔小新 2024-12-27 20:40:29
js
通过类型和标签选择元素

本文介绍了如何使用jQuery根据元素的类型（如复选框）和标签名（如段落）来获取DOM对象。这有助于更高效地操作网页中的特定元素。 ... [详细]

蜡笔小新 2024-12-27 19:44:14
buffer
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
js
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43
js
Xcode 中多行代码缩进技巧

本文介绍如何在 Xcode 中使用快捷键和菜单命令对多行代码进行缩进，包括右缩进和左缩进的具体操作方法。 ... [详细]

蜡笔小新 2024-12-27 17:52:34
js
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
js
深入探讨JSP技术的优缺点

本文详细分析了JSP（JavaServer Pages）技术的主要优点和缺点，帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术，广泛应用于Web开发中。 ... [详细]

蜡笔小新 2024-12-28 11:00:33

值兰修女_662

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章