当前位置: 开发笔记 > 编程语言 > 正文

Spark各组件功能简单理解（quickstart）

作者：空白画叶子 | 来源：互联网 | 2024-09-29 10:05

各个组件confspark-env.sh配置spark的环境变量confspark-default.conf配置spark应用默认的配置项和spark-env.sh有重合之处，可在

各个组件

conf/spark-env.sh 配置spark的环境变量
conf/spark-default.conf 配置spark应用默认的配置项和spark-env.sh有重合之处，可在提交应用时指定要用的配置文件（spark-submit &＃8230;.. &＃8211;properties-file FILE 设置应用程序属性的文件放置位置，默认是conf/spark-defaults.conf）
bin/spark-shell 一个scala/java的spark REPL工具或者说命令行工具，可用来交互的跑一些脚本，或者测试环境之类
bin/spark-submit 部署spark应用
sbin/start-all.sh spark-standalone方式启动
sbin/start-thriftserver.sh 启动thriftserver，提供了一个jdbc接口查询hive数据库

资源调度

根据spark的部署方式的不同，会有不同的组件执行资源调度（资源主要指cpu，memory）

spark on yarn/mesos 由yarn/mesos来做资源调度
standalone由spark自己来做资源调度

任务调度

Spark应用提交后经历了一系列的转换，最后成为Task在每个节点上执行。

RDD的Action算子触发Job的提交
提交到Spark中的Job生成RDD DAG
由DAGScheduler转化为Stage DAG
每个Stage中产生相应的Task集合
TaskScheduler将任务分发到Executor执行
每个任务对应相应的一个数据块，使用用户定义的函数处理数据
块。

更详细内容： https://www.2cto.com/net/201712/703266.html

spark 基础操作

主要抽象是RDD(Resilient Distributed Dataset，弹性分布式数据集),它可被分发到集群各个节点上，进行并行操作。RDDs 可以通过 Hadoop InputFormats 创建（如 HDFS），或者从其他 RDDs 转化而来。
RDD可以读取hdfs或者local的文件，可以读取text, csv, json, parquet, orc等格式的文件。
RDD支持两种类型的操作（算子）：
- action 在数据集上运行计算后返回值
- transformation转换, 从现有数据集创建一个新的数据集
transformation不会立即执行，等到一个action算子触发任务提交
spark会根据代码生成DAG图来执行任务的调度
rdd结合schema可以创建DataFrame，可以执行一些存表，SQL式的join，select，filter，groupby等操作。

spark-streaming 基础操作

spark的流式处理框架

支持kafka，flume，socket，text等方式创建Stream
生成的对象为DStreamRDD，通过分时生成的RDD来进行操作
支持常用的RDD transformation （map, flatmap,filter,repartition,union,couont,reduce等）
可以通过transfrom算子，将DStream作为rdd进行操作： transform(lambda rdd: func(rdd))
读取kafka消息有两种方式，high api式（带receiver，自动处理offset），low api式（直接操作kafka的offset），spark推荐使用low api式，自己操作offset来保证不冗余的读取，不漏读消息
对于python的spark-streaming，可以借助kazoo包来将offset保存到zookeeper
可以使用checkpoint来进行一定的容错
更详细可以参考：https://blog.csdn.net/weixin_35602748/article/details/78668054

pyspark-streaming demo

from pyspark.sql import SparkSession from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils def parse_msg(spark, rdd): pass if __name__ == "__main__": master = "yarn" appName = "AppName" kafka_params = { "bootstrap.servers": "master:9092", # metadata.broker.list or bootstrap.servers "auto.offset.reset": "smallest" } topics = ["logger"] spark = SparkSession \ .builder \ .appName(appName) \ .getOrCreate() # 优先使用sparkSession（spark2.0的方式），这样sparkContext比较容易得到，不用在自定义函数中额外传参 sc = spark.sparkContext ssc = StreamingContext(sc, 10) # 10s的数据做一次处理 directKafkaStream = KafkaUtils.createDirectStream(ssc, topics, kafka_params) # get message strings from kafka lines = directKafkaStream.map(lambda x: x[1]) # transform可以把DStream转换为rdd进行操作 logJsOnStrRDD= lines.transform(lambda rdd: parse_msg(spark, rdd)) # pprint必须有，必须有一个输出，否则提示没法注册，报错： java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothing to execute # pprint = pretty print 用更好的格式来打印 logJsonStrRDD.pprint(5) ssc.start() ssc.awaitTermination()

推荐阅读

char
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
string
SQL数据库面试题解析

本文深入探讨了SQL数据库中常见的面试问题，包括如何获取自增字段的当前值、防止SQL注入的方法、游标的作用与使用、索引的形式及其优缺点，以及事务和存储过程的概念。通过详细的解答和示例，帮助读者更好地理解和应对这些技术问题。 ... [详细]

蜡笔小新 2024-12-22 14:43:35
string
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
string
深入理解Java中的volatile、内存屏障与CPU指令

本文详细探讨了Java中volatile关键字的作用机制，以及其与内存屏障和CPU指令之间的关系。通过具体示例和专业解析，帮助读者更好地理解多线程编程中的同步问题。 ... [详细]

蜡笔小新 2024-12-27 17:26:33
ip
使用Python在SAE上开发新浪微博应用的初步探索

最近重新审视了新浪云平台（SAE）提供的服务，发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用，并分享开发过程中的关键步骤。 ... [详细]

蜡笔小新 2024-12-26 13:36:52
timestamp
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
ip
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
ip
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
ip
自适应用户界面设计

本文介绍了一种根据用户选择动态切换屏幕界面的方法，通过定义不同的选择块（Selection Block），实现灵活的用户交互体验。 ... [详细]

蜡笔小新 2024-12-24 11:42:03
main
最小路径覆盖与强连通分量的应用：国王的问题

本题探讨了在一个有向图中，如何根据特定规则将城市划分为若干个区域，使得每个区域内的城市之间能够相互到达，并且划分的区域数量最少。题目提供了时间限制和内存限制，要求在给定的城市和道路信息下，计算出最少需要划分的区域数量。 ... [详细]

蜡笔小新 2024-12-23 18:42:12
ip
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
main
深入理解Java中的对象与类

本文将探讨Java编程语言中对象和类的核心概念，帮助读者更好地理解和应用面向对象编程的思想。通过实际例子和代码演示，我们将揭示如何在Java中定义、创建和使用对象。 ... [详细]

蜡笔小新 2024-12-23 02:19:45
version
深入解析：OpenShift Origin环境下的Kubernetes Spark Operator

本文探讨了如何在OpenShift Origin平台上利用Kubernetes Spark Operator来管理和部署Apache Spark集群与应用。作为Radanalytics.io项目的一部分，这一开源工具为大数据处理提供了强大的支持。 ... [详细]

蜡笔小新 2024-12-19 14:07:35
ip
掌握Mosek矩阵运算，轻松应对优化挑战

本篇文章继续深入探讨Mosek学习笔记系列，特别是矩阵运算部分，这对于优化问题的解决至关重要。通过本文，您将了解到如何高效地使用Mosek进行矩阵初始化、线性代数运算及约束域的设定。 ... [详细]

蜡笔小新 2024-12-19 12:19:47
ip
探索递归的奇妙世界

递归编程不仅是一种优雅的技术，还能让复杂的算法变得简洁高效。尤其在使用如Scala等支持函数式编程的语言时，递归更是不可或缺。本文将通过一个具体的例子，探讨递归的深层魅力。 ... [详细]

蜡笔小新 2024-12-18 16:54:32

空白画叶子

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章