热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Spark常见易错题

1.spark支持的join类型有A.innerjoinB.leftouterjoinC.rightouterjoinD.fullouterjoin正确答案:ABCD2.对于sp

1. spark支持的join类型有

A. inner join

B. left outer join

C. right outer join

D. full outer join

正确答案:A B C D

2. 对于spark参数spark.ui.port,以下哪一个环境中的参数在运行时生效

A. spark-defaults.conf配置文件中指定

B. spark-submit –conf spark.ui.port 提交任务时指定

C. sparkcontext中采用conf.set(“spark.ui.port”,”14040”)指定

D. spark-site.xml中指定

正确答案:C

3. 以下哪个不是spark的组件()

A.Spark R B.Spark Streaming C.Mllib D.GraphX

正确答案:A

4. Spark默认的存储级别是

A. MEMORY_ONLY

B. MEMORY_ONLY_SER

C. MEMORY_AND_DISK

D. MEMORY_AND_DISK_SER

正确答案:A

5. 以下哪个概念与Spark无关

A. Graphx B. Structrued Streaming C. Spout D. Data Frames

正确答案:C

6. Spark不支持使用哪种语言进行开发

A. Java B. C++ C. Scala D. Python

正确答案:B

7. 以下哪个不属于spark的transform操作()

A. collect B. filter C. map D. flatMap

正确答案:A

8. 简述Spark任务提交到yarn-cluster上的任务运行过程

先介绍一下spark从提交到运行的全流程,下面再详细分析。

(1)、用户通过spark-submit脚本提交应用。

(2)、spark-submit根据用户代码及配置确定使用哪个资源管理器,以及在合适的位置启动driver。

(3)、driver与集群管理器(如YARN)通信,申请资源以启动executor。

(4)、集群管理器启动executor。

(5)、driver进程执行用户的代码,根据程序中定义的transformation和action,进行stage的划分,然后以task的形式发送到executor。(通过DAGScheduler划分stage,通过TaskScheduler和TaskSchedulerBackend来真正申请资源运行task)

(6)、task在executor中进行计算并保存结果。

(7)、如果driver中的main()方法执行完成退出,或者调用了SparkContext#stop(),driver会终止executor进程,并且通过集群管理器释放资源。

9. Spark中各Stage的Task数量由什么决定

A. Partition B. Job C. Stage D. TaskScheduler

正确答案:A

10. 下面spark代码执行时,会读取几次file文件

val raw = sc.textFile(file)
val pvLog = raw.filter(isPV())
val clLog = raw.filter(isCL())
val baseRDD = pvLog.union(clLog)
val baseRDD.count()

A. 0次 B. 1次 C. 2次 D. 3次

正确答案:B

11. Spark中以下哪个操作会进行真实计算

A. Map B. Join C. ReduceByKey D. collect

正确答案:D

12. spark 的 master 和 worker 通过什么方式进行通信的

A. http B. nio C. netty D. Akka

正确答案:D

13. Spark on Yarn模式提交任务后,会进行以下几个过程

①向Yarn申请executor资源。

②任务构建成DAG图。

③Task发送给executor执行。

④进行Stage划分与TaskSet生成。

⑤启动SparkContext。

⑥executor向SparkContext进行注册。

以上过程发生的先后顺序为

A. 165432 B. 516243 C. 165342 D. 526143

正确答案:B

14. Spark支持的分布式部署方式中哪个是错误的

A. Standlone B. Spark on mesos C. Spark on YARN D. Spark on local

正确答案:D

15 . 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景

《Spark常见易错题》
《Spark常见易错题》

参考:https://www.cnblogs.com/reed/p/7730338.html

16. 以WordCount为例,分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。

《Spark常见易错题》
《Spark常见易错题》


推荐阅读
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • 第四章高阶函数(参数传递、高阶函数、lambda表达式)(python进阶)的讲解和应用
    本文主要讲解了第四章高阶函数(参数传递、高阶函数、lambda表达式)的相关知识,包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念,并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说,本文将是一个不错的学习资料。 ... [详细]
  • Android工程师面试准备及设计模式使用场景
    本文介绍了Android工程师面试准备的经验,包括面试流程和重点准备内容。同时,还介绍了建造者模式的使用场景,以及在Android开发中的具体应用。 ... [详细]
  • 本文整理了315道Python基础题目及答案,帮助读者检验学习成果。文章介绍了学习Python的途径、Python与其他编程语言的对比、解释型和编译型编程语言的简述、Python解释器的种类和特点、位和字节的关系、以及至少5个PEP8规范。对于想要检验自己学习成果的读者,这些题目将是一个不错的选择。请注意,答案在视频中,本文不提供答案。 ... [详细]
  • 本文讨论了在shiro java配置中加入Shiro listener后启动失败的问题。作者引入了一系列jar包,并在web.xml中配置了相关内容,但启动后却无法正常运行。文章提供了具体引入的jar包和web.xml的配置内容,并指出可能的错误原因。该问题可能与jar包版本不兼容、web.xml配置错误等有关。 ... [详细]
  • 本文介绍了解决java开源项目apache commons email简单使用报错的方法,包括使用正确的JAR包和正确的代码配置,以及相关参数的设置。详细介绍了如何使用apache commons email发送邮件。 ... [详细]
  • 本文介绍了关于Java异常的八大常见问题,包括异常管理的最佳做法、在try块中定义的变量不能用于catch或finally的原因以及为什么Double.parseDouble(null)和Integer.parseInt(null)会抛出不同的异常。同时指出这些问题是由于不同的开发人员开发所导致的,不值得过多思考。 ... [详细]
  • 流数据流和IO流的使用及应用
    本文介绍了流数据流和IO流的基本概念和用法,包括输入流、输出流、字节流、字符流、缓冲区等。同时还介绍了异常处理和常用的流类,如FileReader、FileWriter、FileInputStream、FileOutputStream、OutputStreamWriter、InputStreamReader、BufferedReader、BufferedWriter等。此外,还介绍了系统流和标准流的使用。 ... [详细]
  • python3 logging
    python3logginghttps:docs.python.org3.5librarylogging.html,先3.5是因为我当前的python版本是3.5之所 ... [详细]
  • RDD创建后就可以在RDD上进行数据处理。RDD支持两种操作:1.转换(transformation):即从现有的数据集创建一个新的数据集2.动作&#x ... [详细]
  • 7.4 基本输入源
    一、文件流1.在spark-shell中创建文件流进入spark-shell创建文件流。另外打开一个终端窗口,启动进入spark-shell上面在spark-shell中执行的程序 ... [详细]
  • 《Spark核心技术与高级应用》——1.2节Spark的重要扩展
    本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章,第1.2节Spark的重要扩展,作者于俊向海代其锋马海平,更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]
  • Spark Streaming和Kafka整合之路(最新版本)
    2019独角兽企业重金招聘Python工程师标准最近完成了SparkStreaming和Kafka的整合工作,耗时虽然不长,但是当中还是遇到了不少 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • Python如何调用类里面的方法
    本文介绍了在Python中调用同一个类中的方法需要加上self参数,并且规范写法要求每个函数的第一个参数都为self。同时还介绍了如何调用另一个类中的方法。详细内容请阅读剩余部分。 ... [详细]
author-avatar
手机用户2502885835
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有