当前位置: 开发笔记 > 编程语言 > 正文

Coursera,BigData3,IntegrationandProcessing(week5)

作者：JAYBRYANT-24 | 来源：互联网 | 2023-09-12 15:02

Week5,BigDataAnalyticsusingSparkPrograminginSpark

Week 5, Big Data Analytics using Spark

Programing in Spark

Spark Core: Programming in Spark using RDD in pipelines

RDD 创建过后，会有两种操作，Transformation 和 Action. 只有到了Action 阶段才会验证Transformation 操作是否正确，所以经常看到Action阶段有很多报错. 叫 lazy

下图是一个具体的例子. 教程里提到了cache功能，比如从数据库query 数据放到RDD里，这个过程比较耗时，为了防止每次都去执行query操作，我们就可以把第一次的结果cache起来，但是注意使用cache 很耗内存，可能会造成瓶颈..

Spark Core: Transformation

RDD本身不能被改变，只能通过transformtion操作转成一个新的RDD

Map transformation

flatMap transfromation, 一对多

map 和 flatMap 是narrow tranformation. narrow transformation 只依赖于一个partition上的数据，并且 data suffering is not nessary.

Filter transformation

Coalesce transformation, 比如

上面谈的都是narrow transformation, 都是本地处理数据不需要在网络上传输数据。

接下来谈wide transformation

先看看reduceByKey 和 groupByKey 的区别.

groupByKey 需要跨节点的shuffle 操作，输出是一个由初始数字 1 组成的列表

reduceByKey 其实就是 groupByKey + reduce

narrow transformation 和 wide transformation 区别：就看有没有跨节点的 shuffle 操作, 也就是有没有跨节点取数据做操作

Spark Core: Actions

第一个Action操作是很常见的collect, 它从worker node 收集最终的结果数据copy到driver node.

其中Reduce 最常用

Main models in Spark eco

Spark SQL

做什么的？优势？

Spark SQL 提供了API可以使query来的data转成 DataFrame

具体怎么做？

Spark SQL summary

Spark Streaming

Spark Streaming summary

Spark MLlib

Spark GraphX

Spark GraphX summary

推荐阅读

python
Android JNI学习之Concepts

2019独角兽企业重金招聘Python工程师标准ConceptsBeforeBeginningThisguideassumesthatyouare:Alreadyfamili ... [详细]

蜡笔小新 2024-09-27 09:16:45
python
ETC 纹理压缩和 Alpha 通道处理

转自：http:malideveloper.arm.comcndevelop-for-malisample-codeetcv1-texture-compression-and-alpha- ... [详细]

蜡笔小新 2024-09-30 20:00:46
process
spotify engineering culture part 1

原文，因为原视频说的太快太长，又没有字幕，于是借助youtube，把原文听&打出来了。中文版日后有时间再翻译。oneofthebigsucceessfactorshereatSpo ... [详细]

蜡笔小新 2024-09-30 13:36:17
hash
《Effective Java》阅读笔记9 覆盖equals时总要覆盖hashCode

1.什么是hashcode方法？hashcode方法返回对象的哈希码值在应用程序的执行期间，只要对象的equals方法的比较操作所用到的信息没有改变& ... [详细]

蜡笔小新 2024-09-29 14:43:29
c语言
编译原理c语言词法分析器,用C语言实现一个真正的词法分析器

词法分析，是编译器的第一个模块，也是最简单的模块。最简单，指的是相对于编译器这种大型程序而言，与一般的代码相比还是有点复杂的 ... [详细]

蜡笔小新 2024-09-29 12:51:26
process
删除数组中的第一级标识符。 - Remove first levels of identifier in array

Ithinkthishasbeenupbefore,butcouldntfindanyanswertoit.Ifitsalreadyansweredplease ... [详细]

蜡笔小新 2024-09-29 12:47:47
list
文本生成图像简要回顾 text to image synthesis

摘要文本生成图像作为近几年的热门研究领域，其解决的问题是从一句描述性文本生成与之对应的图片。近一周来，我通过阅读了近几年发表于顶会的近10篇论文，做出本文中对该方向的 ... [详细]

蜡笔小新 2024-09-29 11:02:00
filter
vue开发知识点总结

一、vue介绍Vue.js是一套构建用户界面(UI)的渐进式JavaScript框架，是一个轻量级MVVM（model-view-viewModel&# ... [详细]

蜡笔小新 2024-09-28 13:51:16
list
activiti拿取当前任务的下一个节点

在实际的工作流业务开发中,当用户完成当前用户任务时,需要指定下一个用户任务的审核人。此时我们需要获取下一个节点的一些信息,来确定下一个用户任务的审核人有哪些。在实际工 ... [详细]

蜡笔小新 2024-09-28 13:14:19
list
com.atlassian.scheduler.config.JobConfig类的使用及代码示例

本文整理了Java中com.atlassian.scheduler.config.JobConfig类的一些代码示例，展示了JobConfig ... [详细]

蜡笔小新 2024-09-28 09:40:57
process
在Windows应用程序中模拟会话 - Simulating session in a Windows app

Iamworkingonawindowsapplication.IneedtosimulateSession(thatwehaveinawebapp)inthe ... [详细]

蜡笔小新 2024-09-28 08:17:27
select
Lodash 中文文档 (v3.10.1)“Collection” 要领

Lodash中文文档(v3.10.1)–“Collection”要领TranslatedbyPeckZegOriginalDocs:Lodashv3.10.1Docs乞助翻译文档的 ... [详细]

蜡笔小新 2024-09-28 08:08:39
list
结对编程地铁最短路径张波朱新远

结对编程地铁最短路径一、任务：实现一个帮助进行地铁出行路线规划的命令行程序。PSP2.1PersonalSoftwareProcessStagesTimePlanni ... [详细]

蜡笔小新 2024-09-27 17:32:27
join
从分布式数据库选型的第一件事谈起

本文很长，谨慎阅读现在在我们的面前摆着太多的分布式数据库可以让我们选择，那么如果我想先让 ... [详细]

蜡笔小新 2024-09-26 15:36:10
join
SpringBoot与缓存使用及原理(上)

SpringBoot与缓存使用及原理(上),Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-09-26 13:55:53

JAYBRYANT-24

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章