作者:小邵Bans_530 | 来源:互联网 | 2023-08-30 17:51
spark 核心是RDD:弹性分布式数据集
基本RDD 转换运算
- 创建intRDD
- 创建stringRDD
- map 运算
- filter 数字运算
- filter 字符串运算
- distinct 运算
- randomSplit 运算
- 随机按照比例分为多个RDD
- 如下比例:0.4:0.6
- groupBy 运算
- 根据匿名函数规则,分为多个Array
多个RDD 转换运算
- 创建3个范例RDD
- union 并集运算
- innersection 交集运算
- substract 差集运算
- cartesian 笛卡尔乘积运算
基本动作运算
RDD key-value 基本转换运算
- 创建范例 k-v RDD
- 将具有相同key的值合并
多个RDD k-v 转换运算
key-value 动作运算
共享变量:用于节省内存和运行时间,提升并行执行时的运行效率
- 分为两种:
- Broadcast 广播变量
- accumulator 累加器
RDD persistence 持久化
- 需要重复运算的RDD 存储到内存中
- 默认memory_only