当前位置: 开发笔记 > 编程语言 > 正文

【老贝伏枥】分布式数据库的数据倾斜问题

作者：-54你懂不懂 | 来源：互联网 | 2023-10-11 20:46

1、问题描述在计算数据的时候，数据的分散度不够，不均匀，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。常见场景有：用H

1、问题描述

在计算数据的时候，数据的分散度不够，不均匀，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。常见场景有：

用Hive算数据的时候reduce阶段卡在99.99%

用Spark Streaming做实时算法时候，一直会有executor出现OOM的错误，但其余的executor内存使用率却很低。

数据倾斜有一个关键因素是数据量大，可以达到千亿级

Hive的数据倾斜，一般都发生在Sql中Group和On上，而且和数据逻辑绑定比较深。 Spark Streaming程序在运行的时候，我们一般不会分配特别多的内存，因此一旦在这个过程中出现一些数据倾斜，就十分容易造成OOM。

2、产生原因

数据运算的时候会设计到count distinct、group by、join等操作，这些都会触发Shuffle动作，一旦触发，所有相同key的值就会拉到一个或几个节点上，就容易发生单点问题。

数据往往和业务是强相关的，业务的场景直接影响到了数据的分布。比如就说订单场景，在某一天在北京和上海两个城市多了强力的推广，结果可能是这两个城市的订单量增长了10000%，其余城市的数据量不变。然后我们要统计不同城市的订单情况，这样做group操作，可能直接就数据倾斜了。

3、解决方案

1、思维导向

A.业务逻辑，从业务逻辑的层面上来优化数据倾斜，比如单独对这两个销量大的城市来做count，最后和其它城市做整合

B.程序层面，在Hive中经常遇到count（distinct）操作，这样会导致最终只有一个reduce，可以先group 再包一层count

C.调参方面，Hadoop和Spark都自带了很多的参数和机制来调节数据倾斜，合理利用它们就能解决大部分问题

2、从业务和数据上解决数据倾斜

很多数据倾斜都是在数据的使用上造成的，前面提到的“从数据角度来理解数据倾斜”和“从业务计角度来理解数据倾斜”中的例子，其实都是数据分布不均匀的类型，这种情况和计算平台无关，我们能通过设计的角度尝试解决它。

有损的方法：找到异常数据，比如ip为0的数据，过滤掉

无损的方法：对分布不均匀的数据，单独计算

数据预处理：将数据打散让它的并行度变大，再汇集

A、hadoop

map join方式

count distinct的操作，先转成group，再count

hive.groupby.skewindata=true

left join的使用

设置map端输出、中间结果压缩。

B、Spark

map join方式

设置RDD压缩

合理设置driver的内存

Spark Sql中的优化和Hive类似

数据倾斜的问题是很大的，如何处理数据倾斜是一个长期的过程，而千亿级别的数据还会有更多的难点，不仅仅是数据倾斜的问题。

本文由贝克汉姆创作，采用知识共享署名-相同方式共享 3.0 中国大陆许可协议进行许可。

转载、引用前需联系作者，并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有。内容为作者个人观点，并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台，并不用于任何商业目的，如果有任何问题，请及时联系我们，我们将根据著作权人的要求，立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

推荐阅读

include
电商高并发解决方案详解

本文以京东为例，详细探讨了电商中常见的高并发解决方案，包括多级缓存和Nginx限流技术，旨在帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-18 14:59:39
include
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
js
从迷茫到收获：阿里腾讯实习Offer的求取之路

本文回顾了作者在求职阿里和腾讯实习生过程中，从最初的迷茫到最后成功获得Offer的心路历程。文中不仅分享了个人的面试经历，还提供了宝贵的面试准备建议和技巧。 ... [详细]

蜡笔小新 2024-11-22 19:32:32
js
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
js
春季职场跃迁指南：如何高效利用金三银四跳槽季

随着每年的‘金三银四’跳槽高峰期的到来，许多职场人士都开始考虑是否应该寻找新的职业机会。本文将探讨如何制定有效的职业规划、撰写吸引人的简历以及掌握面试技巧，助您在这关键时期成功实现职场跃迁。 ... [详细]

蜡笔小新 2024-11-22 19:18:22
fetch
Python3爬虫入门：pyspider的基本使用[python爬虫入门]

Python学习网有大量免费的Python入门教程，欢迎大家来学习。本文主要通过爬取去哪儿网的旅游攻略来给大家介绍pyspid ... [详细]

蜡笔小新 2024-11-22 18:00:41
js
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
js
MySQL InnoDB 存储引擎索引机制详解

本文深入探讨了MySQL InnoDB存储引擎中的索引技术，包括索引的基本概念、数据结构与算法、B+树的特性及其在数据库中的应用，以及索引优化策略。 ... [详细]

蜡笔小新 2024-11-21 12:41:51
js
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
format
OBS Studio自动化实践：利用脚本批量生成录制场景

本文探讨了如何利用OBS Studio进行高效录屏，并通过脚本实现场景的自动生成。适合对自动化办公感兴趣的读者。 ... [详细]

蜡笔小新 2024-11-21 10:44:53
format
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
format
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
get
Java代码保护与混淆：ProGuard详解

在Java开发中，保护代码安全是一个重要的课题。由于Java字节码容易被反编译，因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆，以及其基本原理和常见问题。 ... [详细]

蜡笔小新 2024-11-18 16:46:17
byte
IO流——字符流 BufferedReader / BufferedWriter 进行文件读写

目录节点流、处理流读文件：BufferedReader的使用写文件：BufferedWriter的使用节点流处理流节点流和处理流的区别和联系字符流Buf ... [详细]

蜡笔小新 2024-11-18 14:47:25
split
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05

-54你懂不懂

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章