热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Spark常见易错题

1.spark支持的join类型有A.innerjoinB.leftouterjoinC.rightouterjoinD.fullouterjoin正确答案:ABCD2.对于sp

1. spark支持的join类型有

A. inner join

B. left outer join

C. right outer join

D. full outer join

正确答案:A B C D

2. 对于spark参数spark.ui.port,以下哪一个环境中的参数在运行时生效

A. spark-defaults.conf配置文件中指定

B. spark-submit –conf spark.ui.port 提交任务时指定

C. sparkcontext中采用conf.set(“spark.ui.port”,”14040”)指定

D. spark-site.xml中指定

正确答案:C

3. 以下哪个不是spark的组件()

A.Spark R B.Spark Streaming C.Mllib D.GraphX

正确答案:A

4. Spark默认的存储级别是

A. MEMORY_ONLY

B. MEMORY_ONLY_SER

C. MEMORY_AND_DISK

D. MEMORY_AND_DISK_SER

正确答案:A

5. 以下哪个概念与Spark无关

A. Graphx B. Structrued Streaming C. Spout D. Data Frames

正确答案:C

6. Spark不支持使用哪种语言进行开发

A. Java B. C++ C. Scala D. Python

正确答案:B

7. 以下哪个不属于spark的transform操作()

A. collect B. filter C. map D. flatMap

正确答案:A

8. 简述Spark任务提交到yarn-cluster上的任务运行过程

先介绍一下spark从提交到运行的全流程,下面再详细分析。

(1)、用户通过spark-submit脚本提交应用。

(2)、spark-submit根据用户代码及配置确定使用哪个资源管理器,以及在合适的位置启动driver。

(3)、driver与集群管理器(如YARN)通信,申请资源以启动executor。

(4)、集群管理器启动executor。

(5)、driver进程执行用户的代码,根据程序中定义的transformation和action,进行stage的划分,然后以task的形式发送到executor。(通过DAGScheduler划分stage,通过TaskScheduler和TaskSchedulerBackend来真正申请资源运行task)

(6)、task在executor中进行计算并保存结果。

(7)、如果driver中的main()方法执行完成退出,或者调用了SparkContext#stop(),driver会终止executor进程,并且通过集群管理器释放资源。

9. Spark中各Stage的Task数量由什么决定

A. Partition B. Job C. Stage D. TaskScheduler

正确答案:A

10. 下面spark代码执行时,会读取几次file文件

val raw = sc.textFile(file)
val pvLog = raw.filter(isPV())
val clLog = raw.filter(isCL())
val baseRDD = pvLog.union(clLog)
val baseRDD.count()

A. 0次 B. 1次 C. 2次 D. 3次

正确答案:B

11. Spark中以下哪个操作会进行真实计算

A. Map B. Join C. ReduceByKey D. collect

正确答案:D

12. spark 的 master 和 worker 通过什么方式进行通信的

A. http B. nio C. netty D. Akka

正确答案:D

13. Spark on Yarn模式提交任务后,会进行以下几个过程

①向Yarn申请executor资源。

②任务构建成DAG图。

③Task发送给executor执行。

④进行Stage划分与TaskSet生成。

⑤启动SparkContext。

⑥executor向SparkContext进行注册。

以上过程发生的先后顺序为

A. 165432 B. 516243 C. 165342 D. 526143

正确答案:B

14. Spark支持的分布式部署方式中哪个是错误的

A. Standlone B. Spark on mesos C. Spark on YARN D. Spark on local

正确答案:D

15 . 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景

《Spark常见易错题》
《Spark常见易错题》

参考:https://www.cnblogs.com/reed/p/7730338.html

16. 以WordCount为例,分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。

《Spark常见易错题》
《Spark常见易错题》


推荐阅读
author-avatar
手机用户2502885835
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有