1.spark模块
![在这里插入图片描述](https://img.php1.cn/3cd4a/1eebe/cd5/011ac27956d007f0.webp?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80Mzc0MDY4MA==,size_16,color_FFFFFF,t_70)
spark Core类比于MapReduce框架,对海量数据进行分析处理,分布式(并行计算)
a.转换函数 transformation 调用函数之后,将一个RDD转成另外一个RDD
.
b.Action函数 触发一个Job的执行
(1)将分析结果返回给Driver count,first,take,collect
(2)将分析结果存储到外部存储器中
saveAsTextFile/saveAsnewAPIDataSet/foreach/foreachPartition
.
c.持久化函数persist
将RDD数据持久化到内存或者磁盘上
- 如何读取数据:
SparkContext
spark application 上下文的对象,读取数据以及调度job的执行
SparkSession
2.SparkSQL介绍
属于Spark框架中的一个模块
相当于Hive框架(提供SQLÿ