1.spark模块
spark Core类比于MapReduce框架,对海量数据进行分析处理,分布式(并行计算)
a.转换函数 transformation 调用函数之后,将一个RDD转成另外一个RDD
.
b.Action函数 触发一个Job的执行
(1)将分析结果返回给Driver count,first,take,collect
(2)将分析结果存储到外部存储器中
saveAsTextFile/saveAsnewAPIDataSet/foreach/foreachPartition
.
c.持久化函数persist
将RDD数据持久化到内存或者磁盘上
- 如何读取数据:
SparkContext
spark application 上下文的对象,读取数据以及调度job的执行
SparkSession
2.SparkSQL介绍
属于Spark框架中的一个模块
相当于Hive框架(提供SQLÿ