当前位置: 开发笔记 > 编程语言 > 正文

4个优化方法，让你能了解join计算过程更透彻

作者：noise1969_366438 | 来源：互联网 | 2023-09-01 21:28

4,个,优化,方法,让你,能了解,join,

摘要：现如今，跨源计算的场景越来越多，数据计算不再单纯局限于单方，而可能来自不同的数据合作方进行联合计算。

本文分享自华为云社区《如何高可靠、高性能地优化join计算过程？4个优化让你掌握其中的精髓》，作者： breakDraw 。

现如今，跨源计算的场景越来越多，数据计算不再单纯局限于单方，而可能来自不同的数据合作方进行联合计算。

联合计算时，最关键的就是标识对齐，即需要将两方的角色将同一个标识（例如身份证、注册号等）用join操作关联起来，提取出两边的交集部分，后面再进行计算，得到需要的结果。

而这种join过程看似简单，其实有非常多的门道，这里让我从最简单的join方法开始，一步步演示join的优化过程。

首先假设以下场景：

有tb1， tb2两张表的数据，存放在不同位置
各有相同的id列。
tb1有1亿行数据，而tb2表只有10w行数据。

1.简单全集2次循环碰撞

拿到2张表的全量数据，直接2个for循环进行遍历

如果id匹配，则合并2个行记录作为join结果

for (row r1 : tb1) { for(row r2 : tb2) { if(idMatch(r1, r2) { // 获取r1和r2拼接后的r3 r3 = join(r1,r2) result.add(r3) } } }

图示如下：

上面这种join有2个问题：

性能很差，两次for循环相当于O(mn)的复杂度
为了收集全量数据，可能导致内存溢出，例如大表有10亿行数据，无法一次性存放。

2. 使用哈希表优化性能

首先解决刚才提到的第一个问题

实际上join过程就很像一种命中过程，因此可以联想到哈希表。

我们使用一个 hashMap存储较小的tb2表（只有10w行）。
使用id列当作哈希表的key。
只对大表做for循环，如果id列在哈希表中能匹配中，则取出对用数据做拼接

for (row r1 : tb1) { if(idMap.containKey(r1.getId())) { row r2 = idMap.get(r1.getId()); r3 = join(r1,r2) result.add(r3) } }

这样复杂度就优化到了O(m)了

3. 大表数据分批传输

还有一个问题没解决： ”为了收集全量数据，可能导致内存溢出“。

那我们可以将大表按照特定数量进行拆分，分成多批数据

例如每次以1000条的数量，和小表进行上面的哈希表碰撞过程。这样空间复杂度就是O (K + n)。

当每碰撞完一次，才接着接收下一批数据。如下面所示

注意， ”告知计算完成这种响应机制“也可以优化成阻塞的缓冲队列。

但是还有个问题，如果小表本身也很大，例如1亿条，计算节点连小表的哈希表都存不下，怎么办？

另外单节点计算的CPU有限，如何能在短时间内快速提升性能？

4. 分布式计算

当计算节点存不下小表构成的哈希表时，这时候可以扩容2个join计算节点，引入分布式计算来分担内存压力。

例如我们可以对id列进行shuffle分片

id%3==0 分到计算节点A
id%3==1 分到计算节点B
id%3 ==2 分到计算阶段C

如果id是均匀的，则小表的数据就被拆成了3份，也许就能正好存下了。

大表数据按同样的方式分片，分到相同的节点，对计算结果是没有影响的， 只要你的分片算法确保id匹配的行一定在同一个节点即可。

另外性能上，分布式计算理论上按照节点数量也能够提升N倍的join速度。

这种分布式计算的方式已经能解决大部分join作业了，但是还有个问题：

假设网络带宽压力比较大（比如买的带宽比较便宜，发送数据的成本比较大）
部分涉及安全的计算场景中可能需要对数据做加密
这2种情况都会造成数据在输出时会耗费很多时间，甚至超过join的过程。那么该如何优化？

5. 本地join计算

本地计算，指的就是在通过网络输出数据前，先提前做一些预处理。这种操作在各种计算引擎中都有体现

在spark中有一个叫boardCast广播数据的机制
presto中有一种叫runtimeFilter的方式。

对于join过程，我们可以：

将小表的id进行一定的压缩处理（例如哈希之后取前x位）
这样可以减少传输的数据量。
然后将这块数据传输给大表所在的节点，进行提前的简单join筛选，这样就可以提前过滤掉很多的没必要通过网络输出的数据。

以上仅仅只是最基础的join优化过程，而在海量数据、高性能、高安全、跨网络的复杂场景中，关于join计算还会有更多的挑战。

因此可以关注华为可信智能计算TICS服务，专注高性能高安全的联邦计算和联邦学习，推动跨机构数据的可信融合和协同，安全释放数据价值。

点击关注，第一时间了解华为云新鲜技术~

推荐阅读

安全
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
安全
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
string
基于分布式锁的防止重复请求解决方案

一、前言关于重复请求，指的是我们服务端接收到很短的时间内的多个相同内容的重复请求。而这样的重复请求如果是幂等的（每次请求的结果都相同，如查 ... [详细]

蜡笔小新 2023-10-17 18:06:55
string
go channel 缓冲区最大限制_Golang学习笔记之并发.协程(Goroutine)、信道(Channel)

原文作者：学生黄哲来源：简书Go是并发语言，而不是并行语言。一、并发和并行的区别•并发(concurrency)是指一次处理大量事情的能力 ... [详细]

蜡笔小新 2023-10-17 11:15:01
string
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
string
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13
int
状态压缩算法解决关灯问题2

本文介绍了一道经典的状态压缩题目——关灯问题2，并提供了解决该问题的算法思路。通过使用二进制表示灯的状态，并枚举所有可能的状态，可以求解出最少按按钮的次数，从而将所有灯关掉。本文还对状压和位运算进行了解释，并指出了该方法的适用性和局限性。 ... [详细]

蜡笔小新 2023-12-10 11:23:10
shell
Tomcat安装与配置教程及常见问题解决方法

本文介绍了Tomcat的安装与配置教程，包括jdk版本的选择、域名解析、war文件的部署和访问、常见问题的解决方法等。其中涉及到的问题包括403问题、数据库连接问题、1130错误、2003错误、Java Runtime版本不兼容问题以及502错误等。最后还提到了项目的前后端连接代码的配置。通过本文的指导，读者可以顺利完成Tomcat的安装与配置，并解决常见的问题。 ... [详细]

蜡笔小新 2023-12-09 07:28:32
string
Java中如何保证业务线程的完整性

在开发中，有时候一个业务上要求的原子操作不仅仅包括数据库，还可能涉及外部接口或者消息队列。此时，传统的数据库事务无法满足需求。本文介绍了Java中如何利用java.lang.Runtime.addShutdownHook方法来保证业务线程的完整性。通过添加钩子，在程序退出时触发钩子，可以执行一些操作，如循环检查某个线程的状态，直到业务线程正常退出，再结束钩子程序。例子程序展示了如何利用钩子来保证业务线程的完整性。 ... [详细]

蜡笔小新 2023-12-09 01:32:42
int
Mono为何能跨平台

概念JIT编译(JITcompilation)，运行时需要代码时，将Microsoft中间语言(MSIL)转换为机器码的编译。CLR(CommonLa ... [详细]

蜡笔小新 2023-10-17 22:25:26
string
Annotation的大材小用

为什么80%的码农都做不了架构师？最近在开发一些通用的excel数据导入的功能，由于涉及到导入的模块很多，所以开发了一个比较通用的e ... [详细]

蜡笔小新 2023-10-17 19:43:18
int
spark登陆后闪一下就不见了，问题解决了。

这个问题困扰了我两天，卸载Dr.COM客户端（我们学校上网要装这个客户端登陆服务器，以后只能在网页里输入用户名和密码了），问题解决了。问题的现象：在实验室机台式机上安装openfire和sp ... [详细]

蜡笔小新 2023-10-17 16:47:14
int
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
schema
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
schema
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42

noise1969_366438

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章