热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大表与大表join数据倾斜_12中方法,彻底搞定数据倾斜!

这是我的第64篇原创数据倾斜是上帝对某个服务器的过于偏爱。造成数据倾斜的原因上帝太过于偏爱某个服务器,因此给他分配了太多的任务,导致数据都倾斜到这台服务

这是我的第64篇原创

f1c44ac850065cbdc7ecf0aefd561464.png

数据倾斜是上帝对某个服务器的过于偏爱。

6ce01734694998c77d6c35959142e1b7.png造成数据倾斜的原因

上帝太过于偏爱某个服务器,因此给他分配了太多的任务,导致数据都倾斜到这台服务器了。

在大数据场景中,无论是MapReduce还是Spark,都会因两阶段之间的shuffle导致各个服务器接受到的数据导致处理量失衡的问题。情况严重,就变成数据倾斜了。

我们之所以创造分布式环境,就是因为我们将一个巨大的任务拆解成若干个小任务,给不同的服务器执行,这样总执行时间就会减小至1/n。理想状态的任务处理情况应该如下图所示:

38055a8ea8e33f1ce85ed26f518ac2dc.png

原本单机环境需要执行100s的任务,由5台服务器共同执行,每台服务器执行20s,最后总时间会远远大于单机环境的执行时间。而且我们还可以通过不断增加服务器,来不断减少总运行时间。但是往往会出现这种情况:

7ead8e1049daee0dbc0cec5306742506.png

某4台服务器很快就执行完了任务,但是其中有一台服务器的迟迟不能完成,严重的时候甚至会OOM(Out Of Memory)。究其原因,其实如同上面说过的,在分布式处理的不同阶段之间会有一个混洗(shuffle)的过程:

c40f47f1bf0e3b7d79807d95b9d3ea8b.png

在Map或者Spark的Stage1阶段,由于每个数据块的大小都是一致的(默认128M),所以在这个阶段是不会出现数据倾斜的。但是一旦我们对数据进行Shuffle,比如按照商品品类进行分组之后,在Reduce或Stage2阶段,数据将会出现严重的倾斜:原本每台服务器都只需要处理3条数据,Shuffle之后,其中两台服务器各只需处理1条,而剩余的那台服务器则需要执行8条数据。三台服务器处理的数据量比为7:1:1。数据倾斜至第一台服务器。任务延迟,甚至OOM。

如何解决数据倾斜呢:

三个层面:

1、预判-原始数据预防,保证原始数据不倾斜;

2、躲闪-规避数据倾斜,尽量规避Shuffle;

3、硬刚-处理数据倾斜,无法规避Shuffle,用各种办法优化Shuffle过程。

87ed45d0cfcc01e91de3655391b81fec.png

6ce01734694998c77d6c35959142e1b7.png预判

虽说HDFS的数据都是128M,不会一开始就出现数据倾斜,但是仍然有以下几种情况:

1、数据压缩后,128M文件大小一样,但是数据量不一样;

2、存在不可切分的大文件;

3、流式数据。

这几种情况还是可能会导致程度不一的数据倾斜的。我们需要做一些简单的处理:

1、数据压缩后,128M文件大小一样,但是数据量不一样;

  • 解决办法:压缩前,保证每个文件中的数据量基本一致;

2、存在不可切分的大文件;

  • 解决办法:生成数据时,尽量减少不可切分的文件,尽量按照HDFS的逻辑,存成可切分的文件;或者保证这些大文件中的数据量基本一致,且单机可处理。

3、流式数据;

  • 解决办法:Kafka的partition实现建议使用随机、轮询等方法,尽量使各topic的各partition的数据尽量平衡。

6ce01734694998c77d6c35959142e1b7.png闪避

既然我们知道数据倾斜的主要原因的shuffle导致的,那么我们首要的优化方向就是shuffle,能不用尽量不要用。有以下几种方法我们可以规避:

4、ETL预处理

在面对无法避免的原始数据倾斜(Hive表中key分布不均匀、kafka中某topic的partititoner含有业务属性,天然不均匀等),我们可以通过前置ETL过程,进行预处理。

注意:这个方法只是将成本转嫁,并没有解决问题。适合削峰填谷类的操作,比如我们将数据预处理好,避免凌晨集中计算的时候处理时间过长,影响其他任务。

5、过滤不必要的key

很多数据分析师在单体数据库的时候,就有一个不好的习惯:总喜欢select *。在hive、spark等分布式环境中,就吃苦头了,经常遇到数据倾斜甚至OOM。有经验的数据分析师在写sql的时候,通常会先group by一下,看看数据的分布情况,然后再处理。

咱在分布式环境中也可以做类似的事情,就是采样。

离线环境可以用随机采样,实时环境可以用鱼塘采样。采样能够快速摸清楚各个key的大致分布。扫一眼数据量大的key,如果跟你的计算没啥关系,直接过滤就行。

比如上面举的例子,母婴品类占绝大多数,但是运营的要求是分析3C产品,那你过滤掉母婴产品,一则减少计算量,二则规避了数据倾斜的问题。

6、Reduce join 改为Map join

如果是大小表的join,比如订单表和订单类型、订单状态的join,如果使用reduce join的话,就非常容易在shuflle之后出现数据倾斜。建议的原则:只要一台服务器的内存能吃下这张小表(主要看服务器内存大小,建议2g以内,再大就影响服务器性能了),就建议用map join。这样join完之后,每份数据依然是基本均衡的,而且规避了shuffle导致数据倾斜的问题。

6ce01734694998c77d6c35959142e1b7.png硬刚

上述几步,能做的都做了,还是不行,那就只能硬刚了。这时就只能八仙过海各显神通了。基本的逻辑还是一样的,就是能拆的尽量拆,不能拆的用空间换时间,或者自定义。

7、通用优化:shuffle并行度

spark的shuffle并行度默认值是200,建议根据服务器的情况进行调整。一般是集群cpu总和的2-3倍。当发生数据倾斜的时候,适当增大并行度,可以让任务和数据更均匀的分布在整个集群中。但是这个调优方法有些玄学成分在,因为你不知道他是咋分过去的。

并行度调整有三个方法:

●操作函数内设置

testRDD.groupByKey(200)

●代码中设置“spark.default.parallelism”

conf.set("spark.default.parallelism", 200)

●配置文件中设置“$SPARK_HOME/conf/spark-defaults.conf” 文件

spark.default.parallelism 200

8、拆分超大key

前面说过采样后过滤。如果采样之后发现这个key还是你需要的,无法怎么办?那就把超大数据量的key拆分出来,单独做成一个任务,这样超大数据量的key一个任务,其他中小数据量的key一个任务,两个任务分别做join啊什么的处理,最后把结果合并一下就行了。

为了避免超大数据量的key单独join的时候还是一个key一个任务,可以在key上加上随机数取模的前缀,这样就把数据分成了N份,然后再join。

9、阶段拆分-两阶段聚合

对于聚合类的操作,这种方式可以说是数据倾斜的大杀器。简单来说就是在需要聚合的key前加一个随机数取模的前缀,这样就能得到非常均匀的key,然后按这个加工之后的key进行第一次聚合之后,再对聚合的结果,按照原始key进行二次聚合,这样基本就不可能出现数据倾斜了。示意图如下:

9d4ad88b3134183ccdfdb9ef483065d1.png

对比之前的例子中,处理母婴的服务器和处理3c、图书的服务器任务量是7:1:1,这个方案的数据就非常均匀了。

10、任务拆分

很多时候数据情况会非常复杂,有null值、有超大数据量的key、还有各种需要过滤的数据,还有各种聚合和join。那这个时候就需要把任务再拆分。一部分用上面的key值过滤,一部分用Map Join,一部分用超大key单独处理。

11、随机前缀

前面说过小表join的时候可以用Map join。但是遇到大表join大表咋办?三个方法:1、大表拆成小表,多次join;2、SortMergeJoin;3、位图法(详见《位图法搞定10亿用户量用户标签处理》)。

那大表+中表,该咋处理?可以考虑用随机前缀+RDD扩容的方法解决join的问题。

如果你将要join的表不大不小,又不适合用上面大大表的处理方法,那就可以用这个通用的join方法。简单来说,就是对A表中需要join的字段加上n以内的随机数前缀,然后再把B表中的数据复制N份,join的字段加上1-N的前缀,然后量表再join,就能解决数据倾斜的问题了。示意如下:

原始数据如下:

745d68bdc0498c3f0260dbbe23c33fe8.png

不经处理直接join是这样的,part1很明显比part2要多好几倍的数据:

6b9b7649d44929d0d12d671406980f94.png

我们对A表和B表进行随机前缀和RDD扩容处理之后:

226e8b67a9bcce8e6e59dc364dcd518b.png

然后再join,这样每个part的数据就非常均匀了:

76e4c1eab469889834061e1b09843e24.png

这个方法比较坑的是B表这个RDD需要扩容,要复制N份,对内存要求比较高。但是这个方法可以说是通杀Join的数据倾斜问题。

12、自定义partitioner

上面说改spark的并行数也可以改善数据倾斜,但是有点玄学的意思在里面。其根本原因就是不管你怎么调优,计算引擎的分区都是按照固定的方法进行的,根本不会,也没办法考虑数据真实情况。

无论是二阶段聚合解决聚合的问题,还是随机前缀+RDD扩容解决join的问题,都是通用解决办法,而且还麻烦。其实最好的解决办法就是根据现在处理的这份数据,单独写一个适合的partitioner。比如现在是按省份进行汇总数据,如果只是简单的按省份去分(这并没有错),那么数据肯定会倾斜,因为各省的数据天然不一样。我们可以通过历史数据、抽样数据或者一些常识,对数据进行人工分区,让数据按照我们自定义的分区规则比较均匀的分配到不同的task中。

常见的分区方式:

  • 随机分区:每个区域的数据基本均衡,简单易用,偶尔出现倾斜,但是特征同样也会随机打散。

  • 轮询分区:绝对不会倾斜,但是需要提前预知分成若干份,进行轮询。

  • hash散列:可以针对某个特征进行hash散列,保证相同特征的数据在一个区,但是极容易出现数据倾斜。

  • 范围分区:需要排序,临近的数据会被分在同一个区,可以控制分区数据均匀。

数据倾斜并不可怕,咱可以糙一些,也可以精致一些。但是建议还是糙一些,这样简单粗暴,多节省一些时间干(xue)点(dong)别(xi)的3b393a1fd5b3ebd5a1428117d7513c56.gif

往期精彩回顾

热文 | 当我们在刷抖音的时候,抖音在干什么?

干货 | 架构师带你细细的捋一遍MapReduce全流程

干货 | bitmap解决超大表join实战案例

如果你觉得有用,就请帮忙分享一下,谢谢你了56c02058973a6320855c6c79e17f5ba5.gif



推荐阅读
  • 什么是大数据lambda架构
    一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出,根据维基百科的定义,Lambda架构的设计是为了在处理大规模数 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Kylin 单节点安装
    软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]
  • Java开发实战讲解!字节跳动三场技术面+HR面
    二、回顾整理阿里面试题基本就这样了,还有一些零星的问题想不起来了,答案也整理出来了。自我介绍JVM如何加载一个类的过程,双亲委派模型中有 ... [详细]
  • 你知道Kafka和Redis的各自优缺点吗?一文带你优化选择,不走弯路 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • Azkaban(三)Azkaban的使用
    界面介绍首页有四个菜单projects:最重要的部分,创建一个工程,所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • 本文介绍了在Python中使用zlib模块进行字符串的压缩与解压缩的方法,并探讨了其在内存优化方面的应用。通过压缩存储URL等长字符串,可以大大降低内存消耗,虽然处理时间会增加,但是整体效果显著。同时,给出了参考链接,供进一步学习和应用。 ... [详细]
  • mapreduce源码分析总结
    这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型,它最初是由Google工程师设计并实现的ÿ ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • MapReduce工作流程最详细解释
    MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太 ... [详细]
  • Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]
author-avatar
KristenW_ong_湘
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有