当前位置: 开发笔记 > 编程语言 > 正文

Spark常见易错题

作者：手机用户2502885835 | 来源：互联网 | 2023-09-04 12:02

1.spark支持的join类型有A.innerjoinB.leftouterjoinC.rightouterjoinD.fullouterjoin正确答案：ABCD2.对于sp

1. spark支持的join类型有

A. inner join

B. left outer join

C. right outer join

D. full outer join

正确答案：A B C D

2. 对于spark参数spark.ui.port，以下哪一个环境中的参数在运行时生效

A. spark-defaults.conf配置文件中指定

B. spark-submit &＃8211;conf spark.ui.port 提交任务时指定

C. sparkcontext中采用conf.set(&＃8220;spark.ui.port&＃8221;,&＃8221;14040&＃8221;)指定

D. spark-site.xml中指定

正确答案：C

3. 以下哪个不是spark的组件（）

A.Spark R B.Spark Streaming C.Mllib D.GraphX

正确答案：A

4. Spark默认的存储级别是

A. MEMORY_ONLY

B. MEMORY_ONLY_SER

C. MEMORY_AND_DISK

D. MEMORY_AND_DISK_SER

正确答案：A

5. 以下哪个概念与Spark无关

A. Graphx B. Structrued Streaming C. Spout D. Data Frames

正确答案：C

6. Spark不支持使用哪种语言进行开发

A. Java B. C++ C. Scala D. Python

正确答案：B

7. 以下哪个不属于spark的transform操作（）

A. collect B. filter C. map D. flatMap

正确答案：A

8. 简述Spark任务提交到yarn-cluster上的任务运行过程

先介绍一下spark从提交到运行的全流程，下面再详细分析。

(1)、用户通过spark-submit脚本提交应用。

(2)、spark-submit根据用户代码及配置确定使用哪个资源管理器，以及在合适的位置启动driver。

(3)、driver与集群管理器(如YARN)通信，申请资源以启动executor。

(4)、集群管理器启动executor。

(5)、driver进程执行用户的代码，根据程序中定义的transformation和action，进行stage的划分，然后以task的形式发送到executor。（通过DAGScheduler划分stage，通过TaskScheduler和TaskSchedulerBackend来真正申请资源运行task）

(6)、task在executor中进行计算并保存结果。

(7)、如果driver中的main()方法执行完成退出，或者调用了SparkContext#stop()，driver会终止executor进程，并且通过集群管理器释放资源。

9. Spark中各Stage的Task数量由什么决定

A. Partition B. Job C. Stage D. TaskScheduler

正确答案：A

10. 下面spark代码执行时，会读取几次file文件

val raw = sc.textFile(file) val pvLog = raw.filter(isPV()) val clLog = raw.filter(isCL()) val baseRDD = pvLog.union(clLog) val baseRDD.count()

A. 0次 B. 1次 C. 2次 D. 3次

正确答案：B

11. Spark中以下哪个操作会进行真实计算

A. Map B. Join C. ReduceByKey D. collect

正确答案：D

12. spark 的 master 和 worker 通过什么方式进行通信的

A. http B. nio C. netty D. Akka

正确答案：D

13. Spark on Yarn模式提交任务后，会进行以下几个过程

①向Yarn申请executor资源。

②任务构建成DAG图。

③Task发送给executor执行。

④进行Stage划分与TaskSet生成。

⑤启动SparkContext。

⑥executor向SparkContext进行注册。

以上过程发生的先后顺序为

A. 165432 B. 516243 C. 165342 D. 526143

正确答案：B

14. Spark支持的分布式部署方式中哪个是错误的

A. Standlone B. Spark on mesos C. Spark on YARN D. Spark on local

正确答案：D

15 . 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景

《Spark常见易错题》

参考：https://www.cnblogs.com/reed/p/7730338.html

16. 以WordCount为例，分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。

《Spark常见易错题》

推荐阅读

list
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
import
Spring – Bean Life Cycle

Spring – Bean Life Cycle ... [详细]

蜡笔小新 2024-11-13 13:24:40
split
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
select
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
eval
Linux 环境下多线程编程实战案例分析

在 Linux 环境下，多线程编程是实现高效并发处理的重要技术。本文通过具体的实战案例，详细分析了多线程编程的关键技术和常见问题。文章首先介绍了多线程的基本概念和创建方法，然后通过实例代码展示了如何使用 pthreads 库进行线程同步和通信。此外，还探讨了多线程程序中的性能优化技巧和调试方法，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-08 13:02:21
select
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
eval
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
usb
杜甫《喜晴》的两种英译比较

本文对比了杜甫《喜晴》的两种英文翻译版本：a. Pleased with Sunny Weather 和 b. Rejoicing in Clearing Weather。a 版由 alexcwlin 翻译并经 Adam Lam 编辑，b 版则由哈佛大学的宇文所安教授 (Prof. Stephen Owen) 翻译。 ... [详细]

蜡笔小新 2024-11-12 15:02:28
import
Spring详解（六）AOP

原文网址：https:www.cnblogs.comysoceanp7476379.html目录1、AOP什么？2、需求3、解决办法1:使用静态代理4 ... [详细]

蜡笔小新 2024-11-12 14:40:40
import
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
list
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
eval
利用栈实现四则运算表达式的高效求值方法

本文提出了一种基于栈结构的高效四则运算表达式求值方法。该方法能够处理包含加、减、乘、除运算符以及十进制整数和小括号的算术表达式。通过定义和实现栈的基本操作，如入栈、出栈和判空等，算法能够准确地解析并计算输入的表达式，最终输出其计算结果。此方法不仅提高了计算效率，还增强了对复杂表达式的处理能力。 ... [详细]

蜡笔小新 2024-11-11 14:00:53
bit
深入解析C语言中结构体的内存对齐机制及其优化方法

为了提高CPU访问效率，C语言中的结构体成员在内存中遵循特定的对齐规则。本文详细解析了这些对齐机制，并探讨了如何通过合理的布局和编译器选项来优化结构体的内存使用，从而提升程序性能。 ... [详细]

蜡笔小新 2024-11-11 11:53:59
list
Python 字符串处理全解：常用操作与技巧汇总

本文全面解析了 Python 中字符串处理的常用操作与技巧。首先介绍了如何通过 `s.strip()`, `s.lstrip()` 和 `s.rstrip()` 方法去除字符串中的空格和特殊符号。接着，详细讲解了字符串复制的方法，包括使用 `sStr1 = sStr2` 进行简单的赋值复制。此外，还探讨了字符串连接、分割、替换等高级操作，并提供了丰富的示例代码，帮助读者深入理解和掌握这些实用技巧。 ... [详细]

蜡笔小新 2024-11-10 09:01:29
import
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15

手机用户2502885835

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章