RDD——Action算子

作者：秋雨蒙蒙往事 | 来源：互联网 | 2023-07-05 12:47

常用Action算子countByKeycollectreducefoldfirsttaketopcounttakeSampletakeOrderedforeachsaveAsT

常用Action算子

countByKey
collect
reduce
fold
first
take
top
count
takeSample
takeOrdered
foreach
saveAsTextFile

countByKey()

返回值是一个 字典类型

## 读取文本文件 rdd1 &＃61; sc.textFile(f"file:///{ROOT}/data/input/words.txt") rdd2 &＃61; rdd1.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)) print(rdd2.collect()) # [(&＃39;hello&＃39;, 1), (&＃39;spark&＃39;, 1), (&＃39;hello&＃39;, 1), (&＃39;hadoop&＃39;, 1), (&＃39;hello&＃39;, 1), (&＃39;flink&＃39;, 1)] res &＃61; rdd2.countByKey() print(res) # defaultdict(, {&＃39;hello&＃39;: 3, &＃39;spark&＃39;: 1, &＃39;hadoop&＃39;: 1, &＃39;flink&＃39;: 1}) print(type(res)) #

collect()

将RDD各分区数据统一收集到Driver 形成一个List对象

确定数据量不是太大不然会把Driver 内存撑爆

reduce()

将RDD数据集进行聚合&＃xff0c;返回值就是传入的数据同类型

注意reduceByKey 返回值是RDD

rdd &＃61; sc.parallelize([1, 2, 3, 4, 5]) res &＃61; rdd.reduce(lambda a,b:a&＃43;b) res # 15

fold

在这里插入图片描述

初始值在分区内和分区间都会作用

一般不使用

first()

RDD的第一个元素

take(N)

取RDD的前N个元素组合成List 返回

top(N)

对RDD数据进行降序排序 &＃xff0c;取得前N个组合成List

count()

计算RDD有多少条数据&＃xff0c;返回值是一个数字

takeSample&＃xff08;参数1&＃xff1a;True or False,参数2&＃xff1a;采样数&＃xff0c;参数3&＃xff1a;随机种子&＃xff09;

参数1&＃xff1a; True 表示可以重复取同一个数据

随机抽样RDD数据返回List

takeOrdered(N&＃xff0c;参数2)

升序排列

参数2 可以对排序数据进行改变不改变本身

对RDD进行排序取前N个

rdd &＃61; sc.parallelize([1, 3, 2, 4, 7, 9, 6], 1) print(rdd.takeOrdered(3)) # [1,2,3] print(rdd.takeOrdered(3, lambda x: -x)) # [9,7,6]

foreach(func)

对RDD每一个元素执行提供的逻辑操作&＃xff08;同map&＃xff09;也不改变传入的RDD 但是没有返回值

rdd &＃61; sc.parallelize([1, 2, 3, 4, 5]) rdd2 &＃61; rdd.foreach(lambda x:print(x*10) ) # print(rdd.collect()) print(rdd2) 20 10 30 40 50 None

saveasTextFile()

rdd &＃61; sc.parallelize([1, 3, 2, 4, 7, 9, 6], 1)# 分区可以控制生成的文件数 # rdd.saveAsTextFile("../data/output/out1") 保存写相对路径也不行还是要绝对路径 # 本地 rdd.saveAsTextFile(f"file:///{ROOT}/data/output/out1") # hdfs rdd.saveTextFile("hdfs://hadoop102:8080/路径")

在这里插入图片描述

foreach; saveAsTextFile 都是由分区&＃xff08;Excutor)直接执行的,跳过Driver

其余的 Action 算子都会将结果发送至Driver

推荐阅读

text
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
int
深入解析Android Audio系统中的mpAudioPolicy->get_input

在分析Android的Audio系统时，我们对mpAudioPolicy->get_input进行了详细探讨，发现其背后涉及的机制相当复杂。本文将详细介绍这一过程及其背后的实现细节。 ... [详细]

蜡笔小新 2024-11-12 18:52:04
hook
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
text
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
netty
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
text
oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils

createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]

蜡笔小新 2024-11-12 19:26:15
text
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
config
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
text
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
int
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
text
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
int
2022年7月20日：关键数据与市场动态分析

2022年7月20日，本文对当日的关键数据和市场动态进行了深入分析。主要内容包括：1. 关键数据的解读与趋势分析；2. 市场动态的变化及其对投资策略的影响；3. 相关经济指标的评估。通过这些分析，帮助读者更好地理解当前市场环境，为决策提供参考。 ... [详细]

蜡笔小新 2024-11-11 23:45:20
config
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
config
利用Python Paramiko库批量更新多台服务器的登录密码

本文介绍了如何使用Python的Paramiko库批量更新多台服务器的登录密码。通过示例代码展示了具体实现方法，确保了操作的高效性和安全性。Paramiko库提供了强大的SSH2协议支持，使得远程服务器管理变得更加便捷。此外，文章还详细说明了代码的各个部分，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 19:17:23
int
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59

秋雨蒙蒙往事

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章