个推Spark实践教你绕过开发那些“坑”

作者：yo繽紛樂 | 来源：互联网 | 2023-05-18 02:13

Spark作为一个开源数据处理框架，它在数据计算过程中把中间数据直接缓存到内存里，能大大提高处理速度，特别是复杂的迭代计算。Spark主要包括SparkSQL，SparkStreaming，

Spark作为一个开源数据处理框架，它在数据计算过程中把中间数据直接缓存到内存里，能大大提高处理速度，特别是复杂的迭代计算。Spark主要包括SparkSQL，SparkStreaming，Spark MLLib以及图计算。

Spark核心概念简介

1、RDD即弹性分布式数据集，通过RDD可以执行各种算子实现数据处理和计算。比如用Spark做统计词频，即拿到一串文字进行WordCount，可以把这个文字数据load到RDD之后，调用map、reducebyKey 算子，最后执行count动作触发真正的计算。

2、宽依赖和窄依赖。工厂里面有很多流水线，一款产品上游有一个人操作，下游有人进行第二个操作，窄依赖和这个很类似，下游依赖上游。而所谓宽依赖类似于有多条流水线，A流水线的一个操作是需要依赖一条流水线B，才可以继续执行，要求两条流水线之间要做材料运输，做协调，但效率低。

从上图可以看到，如果B只依赖A则是一种窄依赖。像图中这种reduceByKey的操作，就是刚刚举例的宽依赖，类似于多条流水线之间某一些操作相互依赖，如：F对E、B的依赖。宽依赖最大的问题是会导致洗牌过程。

Spark Streaming介绍

流式计算，即数据生成后，实时对数据进行处理。Spark 是一个批处理框架，那它如何实现流式处理？Spark 是把数据裁成一段一段的处理,即一个数据流离散化成许多个连续批次，然后Spark对每个批次进行处理。

个推为什么选择Spark

1、Spark 比较适合迭代计算，解决我们团队在之前使用hadoop mapreduce迭代数据计算这一块的瓶颈。

2、Spark是一个技术栈，但可以做很多类型的数据处理：批处理，SQL，流式处理以及ML等，基本满足我们团队当时的诉求。

3、它的API抽象层次非常高，通过使用map、reduce、groupby等多种算子可快速实现数据处理，极大降低开发成本，并且灵活。另外Spark框架对于多语言支持也是非常好，很多负责数据挖掘算法同学对于python 熟悉，而工程开发的同学熟悉java，多语言支持可以把开发和分析的同学快速地引入过来。

4、在2014年的时候，我们用hadoop Yarn，而Spark可以在Yarn部署起来，使用Spark大大降低了切换成本，并且可以把之前的hadoop资源利用起来。

5、Spark在社区很火，找资料非常方便。

个推数据处理架构

上图是一个典型的lambda架构。主要分三层。上面蓝色的框，是做离线批量处理，下面一层是实时数据处理这一块，中间这一层是对于结果数据做一些存储和检索。

有两种方式导入数据到HDFS，一部分数据从业务平台日志收集写入到 Kafka，然后直接Linkedin Camus（我们做过扩展）准实时地传输到 HDFS，另外部分数通过运维那边的脚本定时导入到 HDFS 上。

离线处理部分我们还是使用两个方式（Hadoop MR 和 Spark）。原有的hadoop MR没有放弃掉，因为原来很多的工程已经是用MR做的了，非常稳定，没有必要推倒重来，只有部分迭代任务使用Spark 重新实现。另外Hive是直接可以跟Spark做结合，Spark Sql中就可以使用Hive的命令。

个推Spark集群的部署状况

个推最开始用Spark是1.3.1版本，用的是刀片服务器,就是刀框里面可以塞 16 个刀片服务器，单个内存大小192G， CPU 核数是24 核的。在Spark官方也推荐用万兆网卡，大内存设备。我们权衡了需求和成本后，选择了就用刀片机器来搭建 Spark集群。刀框有个好处就是通过背板把刀片机器连接起来，传输速度快，相对成本小。部署模式上采用的是 Spark on Yarn，实现资源复用。

Spark 在个推业务上的具体使用

1、个推做用户画像、模型迭代以及一些推荐的时候直接用了MLLib，MLLib集成了很多算法，非常方便。

2、个推有一个BI工具箱，让一些运营人员提取数据，我们是用Spark SQL+Parquet格式宽表实现，Parquet是列式存储格式，使用它你不用加载整个表，只会去加载关心那些字段，大大减少IO消耗。

3、实时统计分析这块：例如个推有款产品叫个图，就是使用Spark streaming 来实时统计。

4、复杂的 ETL 任务我们也使用 Spark。例如：我们个推推送报表这一块，每天需要做很多维度的推送报表统计。使用 Spark 通过 cache 中间结果缓存，然后再统计其他维度，大大地减少了 I/O 消耗，显著地提升了统计处理速度。

个推Spark实践案例分享

上图是个推热力图的处理架构。左边这一侧利用业务平台得到设备的实时位置数据，通过Spark Streaming以及计算得到每一个geohash格子上的人数，然后统计结果实时传输给业务服务层，在push到客户端地图上面去渲染，最终形成一个实时热力图。Spark Streaming 主要用于数据实时统计处理上。

个推教你绕过开发那些坑

1、数据处理经常出现数据倾斜，导致负载不均衡的问题，需要做统计分析找到倾斜数据特征，定散列策略。

2、使用Parquet列式存储，减少IO，提高Spark SQL效率。

3、实时处理方面：一方面要注意数据源（Kafka）topic需要多个partition，并且数据要散列均匀，使得Spark Streaming的Recevier能够多个并行，并且均衡地消费数据。使用Spark Streaming，要多通过Spark History 排查DStream的操作中哪些处理慢，然后进行优化。另外一方面我们自己还做了实时处理的监控系统，用来监控处理情况如流入、流出数据速度等。通过监控系统报警,能够方便地运维Spark Streaming 实时处理程序。这个小监控系统主要用了 influxdb+grafana 等实现。

4、我们测试网经常出现找不到第三方jar的情况，如果是用CDH的同学一般会遇到，就是在CDH 5.4开始，CDH的技术支持人员说他们去掉了hbase等一些jar，他们认那些jar已经不需要耦合在自己的classpath中，这个情况可以通过spark.executor.extraClassPath方式添加进来。

5、一些新入门的人会遇到搞不清transform和action，没有明白transform是lazy的，需要action触发，并且两个action前后调用效果可能不一样。

6、大家使用过程当中，对需要重复使用的RDD，一定要做cache，性能提升会很明显。

推荐阅读

数据挖掘
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
数据挖掘
伸缩性|发生_分布式文件系统设计，该从哪些方面考虑？

篇首语：本文由编程笔记#小编为大家整理，主要介绍了分布式文件系统设计，该从哪些方面考虑？相关的知识，希望对你有一定的参考价值。点击上方关注“ ... [详细]

蜡笔小新 2023-10-16 17:43:40
search
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
search
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
search
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24
install
开发笔记:软件测试知识点之数据库压力测试方法小结

篇首语：本文由编程笔记#小编为大家整理，主要介绍了软件测试知识点之数据库压力测试方法小结相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-10 20:29:19
format
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
format
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
format
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
jar
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
jar
Android工程师面试准备及设计模式使用场景

本文介绍了Android工程师面试准备的经验，包括面试流程和重点准备内容。同时，还介绍了建造者模式的使用场景，以及在Android开发中的具体应用。 ... [详细]

蜡笔小新 2023-12-11 18:25:26
replace
纠正网上的错误：自定义一个类叫java.lang.System/String的方法

本文纠正了网上关于自定义一个类叫java.lang.System/String的错误答案，并详细解释了为什么这种方法是错误的。作者指出，虽然双亲委托机制确实可以阻止自定义的System类被加载，但通过自定义一个特殊的类加载器，可以绕过双亲委托机制，达到自定义System类的目的。作者呼吁读者对网上的内容持怀疑态度，并带着问题来阅读文章。 ... [详细]

蜡笔小新 2023-12-11 16:54:20
replace
嵌入式处理器的架构与内核发展历程

本文主要介绍了嵌入式处理器的架构与内核发展历程，包括不同架构的指令集的变化，以及内核的流水线和结构。通过对ARM架构的分析，可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]

蜡笔小新 2023-12-11 15:38:57
replace
2022年手机选购指南：高性价比手机推荐及挑选技巧

在2022年，随着信息化时代的发展，手机市场上出现了越来越多的机型选择。如何挑选一部适合自己的手机成为了许多人的困扰。本文提供了一些配置及性价比较高的手机推荐，并总结了选择手机时需要考虑的因素，如性能、屏幕素质、拍照水平、充电续航、颜值质感等。不同人的需求不同，因此在预算范围内找到适合自己的手机才是最重要的。通过本文的指南和技巧，希望能够帮助读者节省选购手机的时间。 ... [详细]

蜡笔小新 2023-12-11 13:53:09
replace
SparkStreaming微批量处理的方法与技巧

本文介绍了SparkStreaming微批量处理的方法与技巧，包括参考文章spark_streaming_微批量处理Spark流的内容。通过本文的阅读，读者可以了解到在SparkStreaming中如何进行微批量处理，并掌握相关的方法和技巧。阅读本文可以帮助读者更好地理解和应用SparkStreaming的微批量处理功能。 ... [详细]

蜡笔小新 2023-12-10 18:07:08

yo繽紛樂

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章