作者:手机用户2502885835 | 来源:互联网 | 2023-09-04 12:02
1.spark支持的join类型有A.innerjoinB.leftouterjoinC.rightouterjoinD.fullouterjoin正确答案:ABCD2.对于sp
1. spark支持的join类型有
A. inner join
B. left outer join
C. right outer join
D. full outer join
正确答案:A B C D
2. 对于spark参数spark.ui.port,以下哪一个环境中的参数在运行时生效
A. spark-defaults.conf配置文件中指定
B. spark-submit –conf spark.ui.port 提交任务时指定
C. sparkcontext中采用conf.set(“spark.ui.port”,”14040”)指定
D. spark-site.xml中指定
正确答案:C
3. 以下哪个不是spark的组件()
A.Spark R B.Spark Streaming C.Mllib D.GraphX
正确答案:A
4. Spark默认的存储级别是
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER
正确答案:A
5. 以下哪个概念与Spark无关
A. Graphx B. Structrued Streaming C. Spout D. Data Frames
正确答案:C
6. Spark不支持使用哪种语言进行开发
A. Java B. C++ C. Scala D. Python
正确答案:B
7. 以下哪个不属于spark的transform操作()
A. collect B. filter C. map D. flatMap
正确答案:A
8. 简述Spark任务提交到yarn-cluster上的任务运行过程
先介绍一下spark从提交到运行的全流程,下面再详细分析。
(1)、用户通过spark-submit脚本提交应用。
(2)、spark-submit根据用户代码及配置确定使用哪个资源管理器,以及在合适的位置启动driver。
(3)、driver与集群管理器(如YARN)通信,申请资源以启动executor。
(4)、集群管理器启动executor。
(5)、driver进程执行用户的代码,根据程序中定义的transformation和action,进行stage的划分,然后以task的形式发送到executor。(通过DAGScheduler划分stage,通过TaskScheduler和TaskSchedulerBackend来真正申请资源运行task)
(6)、task在executor中进行计算并保存结果。
(7)、如果driver中的main()方法执行完成退出,或者调用了SparkContext#stop(),driver会终止executor进程,并且通过集群管理器释放资源。
9. Spark中各Stage的Task数量由什么决定
A. Partition B. Job C. Stage D. TaskScheduler
正确答案:A
10. 下面spark代码执行时,会读取几次file文件
val raw = sc.textFile(file)
val pvLog = raw.filter(isPV())
val clLog = raw.filter(isCL())
val baseRDD = pvLog.union(clLog)
val baseRDD.count()
A. 0次 B. 1次 C. 2次 D. 3次
正确答案:B
11. Spark中以下哪个操作会进行真实计算
A. Map B. Join C. ReduceByKey D. collect
正确答案:D
12. spark 的 master 和 worker 通过什么方式进行通信的
A. http B. nio C. netty D. Akka
正确答案:D
13. Spark on Yarn模式提交任务后,会进行以下几个过程
①向Yarn申请executor资源。
②任务构建成DAG图。
③Task发送给executor执行。
④进行Stage划分与TaskSet生成。
⑤启动SparkContext。
⑥executor向SparkContext进行注册。
以上过程发生的先后顺序为
A. 165432 B. 516243 C. 165342 D. 526143
正确答案:B
14. Spark支持的分布式部署方式中哪个是错误的
A. Standlone B. Spark on mesos C. Spark on YARN D. Spark on local
正确答案:D
15 . 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景
参考:https://www.cnblogs.com/reed/p/7730338.html
16. 以WordCount为例,分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。