关于greenplum:特性分析-GreenPlum-的并行查询优化策略详解

作者：狮子座YAO | 来源：互联网 | 2024-11-17 14:54

GreenPlum采纳ShareNothing的架构，良好的施展了便宜PC的作用。自此IO不在是DW(datawarehouse)的瓶颈，相同网络的压力会大很多。然而GreenPlum的查问优化策略可能防止尽量少的网络替换。对于首次接触GreenPlum的人来说，必定耳目一新。

本文首发于 2016-11-21 09:43:07

架构

GreenPlum 采纳 Share Nothing 的架构，良好的施展了便宜PC的作用。自此I/O不在是 DW(data warehouse) 的瓶颈，相同网络的压力会大很多。然而 GreenPlum 的查问优化策略可能防止尽量少的网络替换。对于首次接触 GreenPlum 的人来说，必定耳目一新。

查问优化器

GreenPlum 的 master 节点负责 SQL 解析和执行打算的生成，具体来说，查问优化器会将 SQL 解析成每个节点（segments）要执行的物理执行打算。

GreenPlum 采纳的是基于老本的优化策略：如果有多条执行门路，会评估执行代价，找出代价最小、最有效率的一条。

不像传统的查问优化器，GreenPlum 的查问优化器必须全局的思考整个集群，在每个候选的执行打算中思考到节点间挪动数据的开销。比方有 join，那么 join 是在各个节点别离进行的（每个节点只和本身数据做 join），所以它的查问很快。

查问打算包含了一些传统的操作，比方：扫描、Join、排序、聚合等等。

GreenPlum 中有三种数据的挪动操作：

Broadcast Motion (N:N)：播送数据。每个节点向其余节点播送须要发送的数据。
Redistribute Motion (N:N)：从新散布数据。利用 join 列数据的 hash 值不同，将筛选后的数据在其余 segment 从新散布。
Gather Motion (N:1)：聚合汇总数据。每个节点将 join 后的数据发到一个单节点上，通常是发到主节点 master 。

示例

示例1

explain select d.*,j.customer_id from data d join  jd1 j on d.partner_id=j.partner_id where j.gmt_modified> current_date -80;   
                                       QUERY PLAN                                          
----------------------------------------------------------------------------------------   
 Gather Motion 88:1  (slice2)  (cost=3.01..939.49 rows=2717 width=59)   
   ->  Hash Join  (cost=3.01..939.49 rows=2717 width=59)   
         Hash Cond: d.partner_id::text = j.partner_id::text   
         ->  Seq Scan on data d  (cost=0.00..260.74 rows=20374 width=50)   
         ->  Hash  (cost=1.91..1.91 rows=88 width=26)   
               ->  Broadcast Motion 88:88  (slice1)  (cost=0.00..1.91 rows=88 width=26)   
                     ->  Seq Scan on jd1 j  (cost=0.00..1.02 rows=1 width=26)   
                           Filter: gmt_modified > ('now'::text::date - 80)

执行打算须要自下而上剖析：

在各个节点扫描本人的 jd1 表数据，依照条件过滤生成数据（记为 rs）。
各节点将本人生成的 rs 顺次发送到其余节点。（Broadcast Motion (N:N)）
每个节点上的 data 表的数据，和各自节点上收到的 rs 进行 join，这样能保障本机数据只和本机数据做 join 。
各节点将 join 后的后果发送给 master(Gather Motion (N:1)) 。

由下面的执行过程能够看出， GreenPlum 将 rs 给每个含有 data 表数据的节点都发了一份。

问：如果 rs 很大或者压根就没有过滤条件，会有什么问题？如何解决？

比方本例中的表 jd1 和表data的数据行数如下：

=> select count(*) from jd1;   
 count    
-------   
    20   
(1 row)

=> select count(*) from data;   
 count     
--------   
 113367

如果 rs 很大的话，播送数据时网络就会成为瓶颈。GreenPlum 的优化器很聪慧，它是将小表播送到各个 segment 上，极大的升高网络开销。从这个例子能看出统计信息对于生成好的查问打算是何等重要。

示例2

上面看一个简单点的例子：

select
    c_custkey, c_name,
    sum(l_extendedprice * (1 - 1_discount)) as revenue,
    c_acctbal, n_name, c_address, c_phone, c_comment
from
    customer, orders, lineitem, nation
where
    c_custkey = o_custkey
and 1_orderkey = o_orderkey
and o_orderdate >= date '1994-08-01'
and o_orderdate


执行打算如下：


各个节点上同时扫描各自的 nation 表数据，将各 segment 上的 nation 数据向其余节点播送（Broadcast Motion (N:N)）。
各个节点上同时扫描各自 customer 数据，和收到的 nation 数据 join 生成RS-CN 。
各个 segment 同时扫描本人 orders 表数据，过滤数据生成 RS-O 。
各个 segment 同时扫描本人 lineitem 表数据，过滤生成 RS-L 。
各个 segment 同时将各自 RS-O 和 RS-L 进行 join，生成RS-OL。留神此过程不须要 Redistribute Motion (N:N) 从新散布数据，因为 orders 和 lineitem 的 distribute column 都是orderkey，这就保障了各自须要 join 的对象都是在各自的机器上，所以 n 个节点就开始并行 join 了。
各个节点将本人在步骤5生成的 RS-OL 依照 cust-key 在所有节点间从新散布数据（Redistribute Motion (N:N)，能够依照 hash 和 range 在节点间来从新散布数据，默认是 hash），这样每个节点都会有本人的 RS-OL 。
各个节点将本人在步骤2生成的 RS-CN 和本人节点上的 RS-OL 数据进行 join，又是本机只和本机的数据进行 join 。
聚合，排序，发往主节点 master 。

总结
Greenplum如何解决和优化一张大表和小表的join?
Greenplum是抉择将小表播送数据，而不是将大表播送。
举例说明：
表 A 有10亿条数据（empno,deptno,ename），表 B 有500条数据（deptno,dname,loc）
表 A 与表 B join on deptno
集群有11个节点：1个 master，10个 segment
依照失常的主键列 hash 散布，每个 segment 节点上只会有 1/10 的表 A 和 1/10 的表 B。
此时 GreenPlum 会让所有节点给其余节点发送各自所领有的小表 B 的1/10的数据，这样就保障了10个节点上，每个节点都有一份残缺的表 B 的数据。此时，每个节点上1/10的 A 只须要和本人节点上的 B 进行 join 就OK。所以 GreenPlum 并行处理能力惊人的起因就在这里。
最终所有节点会将 join 的后果都发给主节点 master。
由该例可见统计信息非常重要，GreenPlum 通过统计信息来确定将哪张表进行（Broadcast Motion (N:N)）。
另外，理论应用中还会呈现列值歪斜的状况，比方 A 没有依照主键来 hash 散布，而是人为指定依照 deptno 的 hash 在各个节点上散布数据。若 A 中80%的数据都是sales（deptno=10）部门的，此时10个节点中，就会有一个节点上领有了 10亿×80% 的数据，就算是将表 B 播送到其余节点 也杯水车薪，因为计算的压力都集中在一台机器了。所以，必须抉择适合的列进行hash散布。

欢送关注我的微信公众号【数据库内核】：分享支流开源数据库和存储引擎相干技术。




题目
网址




GitHub
https://dbkernel.github.io


知乎
https://www.zhihu.com/people/&＃8230;


思否（SegmentFault）
https://segmentfault.com/u/db&＃8230;


掘金
https://juejin.im/user/5e9d3e&＃8230;


开源中国（oschina）
https://my.oschina.net/dbkernel


博客园（cnblogs）
https://www.cnblogs.com/dbkernel

题目	网址
GitHub	https://dbkernel.github.io
知乎	https://www.zhihu.com/people/&＃8230;
思否（SegmentFault）	https://segmentfault.com/u/db&＃8230;
掘金	https://juejin.im/user/5e9d3e&＃8230;
开源中国（oschina）	https://my.oschina.net/dbkernel
博客园（cnblogs）	https://www.cnblogs.com/dbkernel




    
        
                        架构
                        io
                        编程
                        php
                        sql
                        join
                        cas
                        redis
                        hash
                    
    



    
        写下你的评论吧 !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
                                    
                
            
        

        
    

    
        推荐阅读
        
            
                                
                    
                        join
                        MySQL索引详解与优化
                    

                    
                                                
                            
                        
                                                
                        本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-25 19:52:47
                    

                

                
                                
                    
                        yaml
                        Python配置文件读写指南
                    

                    
                                                
                        本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 08:39:55
                    

                

                                
                    
                    
                
                
                                
                    
                        数组
                        从 .NET 转 Java 的自学之路：IO 流基础篇
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 17:37:25
                    

                

                
                                
                    
                        数组
                        Qt 环境下 SQLite 动态创建表的实现方法
                    

                    
                                                
                        SQLite 动态创建多个表的需求在网络上有不少讨论，但很少有详细的解决方案。本文将介绍如何在 Qt 环境中使用 QString 类轻松实现 SQLite 表的动态创建，并提供详细的步骤和示例代码。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 15:11:34
                    

                

                
                                
                    
                        post
                        PostgreSQL中的模式管理
                    

                    
                                                
                        本文由瀚高PG实验室撰写，详细介绍了如何在PostgreSQL中创建、管理和删除模式。文章涵盖了创建模式的基本命令、public模式的特性、权限设置以及通过角色对象简化操作的方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 11:37:26
                    

                

                
                                
                    
                        split
                        Scala 实现 UTF-8 编码属性文件读取与克隆
                    

                    
                                                
                            
                        
                                                
                        本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-26 08:25:19
                    

                

                
                                
                    
                        join
                        DLP数据泄露检测原理浅析
                    

                    
                                                
                        最近团队在部署DLP，作为一个技术人员对于黑盒看不到的地方还是充满了好奇心。多次咨询乙方人员DLP的算法原理是什么，他们都以商业秘密为由避而不谈，不得已只能自己查资料学习，于是有了下面的浅见。身为甲方，虽然不需要开发DLP产品，但是也有必要弄明白DLP基本的原理。俗话说工欲善其事必先利其器，只有在懂这个工具的原理之后才能更加灵活地使用这个工具，即使出现意外情况也能快速排错，越接近底层，越接近真相。根据DLP的实际用途，本文将DLP检测分为2部分，泄露关键字检测和近似重复文档检测。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-25 18:19:32
                    

                

                
                                
                    
                        join
                        Python编程进阶：高阶函数与Lambda表达式详解
                    

                    
                                                
                        本文深入探讨了Python中的高阶函数和Lambda表达式的使用方法，结合实际案例解析其应用场景，帮助开发者更好地理解和运用这些强大的工具。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-25 11:58:39
                    

                

                
                                
                    
                        join
                        分组获取最大N条记录的优化方案及新年祝福
                    

                    
                                                
                        探讨如何从数据库中按分组获取最大N条记录的方法，并分享新年祝福。本文提供多种解决方案，适用于不同数据库系统，如MySQL、Oracle等。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-24 12:30:56
                    

                

                
                                
                    
                        join
                        【48】在flask中使用ＳＱＬＡＬｃｈｅｍｙ连接ｓｑｌｉｔｅ数据库
                    

                    
                                                
                        方法：１　配置数据库basediros.path.abspath(os.path.dirname(__file__))　　＃获取当前文件的绝对路径appFlask(__name__ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-23 12:51:39
                    

                

                
                                
                    
                        callback
                        Windows服务与数据库交互问题解析
                    

                    
                                                
                            
                        
                                                
                        本文探讨了在Windows 10（64位）环境下开发的Windows服务，旨在定期向本地MS SQL Server (v.11)插入记录。尽管服务已成功安装并运行，但记录并未正确插入。我们将详细分析可能的原因及解决方案。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-28 10:30:14
                    

                

                
                                
                    
                        io
                        Linux 网卡绑定的七种工作模式详解
                    

                    
                                                
                        本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-27 10:18:13
                    

                

                
                                
                    
                        split
                        毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现
                    

                    
                                                
                            
                        
                                                
                        本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-25 17:38:50
                    

                

                
                                
                    
                        join
                        深入理解线程局部存储
                    

                    
                                                
                        在多线程编程环境中，线程之间共享全局变量可能导致数据竞争和不一致性。为了解决这一问题，Linux提供了线程局部存储（TLS），使每个线程可以拥有独立的变量副本，确保线程间的数据隔离与安全。 ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-25 17:04:36
                    

                

                
                                
                    
                        split
                        Python——对象自省
                    

                    
                                                
                        对象自省自省在计算机编程领域里，是指在运行时判断一个对象的类型和能力。dir能够返回一个列表，列举了一个对象所拥有的属性和方法。my_list[ ...
                        [详细]
                    
                    

                    
                        蜡笔小新   2024-12-23 12:55:35

















    

    
        
            
            
                
                
            

            
                狮子座YAO            

            
                这个家伙很懒，什么也没留下！            


        
    

    
    

    
    

    
        Tags | 热门标签
        
            
                                
                    object
                
                                
                    include
                
                                
                    io
                
                                
                    format
                
                                
                    java
                
                                
                    scala
                
                                
                    web3
                
                                
                    md5
                
                                
                    require
                
                                
                    callback
                
                                
                    perl
                
                                
                    const
                
                                
                    bit
                
                                
                    list
                
                                
                    uri
                
                                
                    数组
                
                                
                    join
                
                                
                    rsa
                
                                
                    regex
                
                                
                    settings
                
                                
                    hashcode
                
                                
                    search
                
                                
                    shell
                
                                
                    triggers
                
                                
                    post
                
                                
                    cookie
                
                                
                    split
                
                                
                    yaml
                
                                
                    php5
                
                                
                    netty
                
                                
            
        
    

    
    
        
            
            
        
        RankList | 热门文章
        
            
                                
                    1如何在DB2中审查数据库权限
                
                                
                    2NameNode内存优化基于缓存相同文件名的方法
                
                                
                    3Windows多声道音频采集解决方案
                
                                
                    4Android中实现复合旋转动画效果
                
                                
                    5启动pyspider报错
                
                                
                    6C++模板汇编技术
                
                                
                    7南北朝诗人何逊《入西塞示南府同僚》诗歌解析与译文
                
                                
                    8使用poweroff命令安全关闭计算机并断电
                
                                
                    9MapReduce原理是怎么剖析的
                
                                
                    10MTPA 控制技术探讨
                
                                
                    11QQ游戏大厅入驻微软应用商店，带来多样化棋牌游戏体验
                
                                
                    12解决Win10 1909版本更新失败的方法
                
                                
                    13WMN开发初见成效
                
                                
                    14二维树状数组+差分【p4514】上帝造题的七分钟
                
                                
                    152017年人工智能领域的十大里程碑事件回顾