spark题05

作者： | 来源：互联网 | 2023-09-02 15:35

1.scala中private与private[this]修饰符的区别？private[包名],private[this]可以放在字段，方法和类上，用来限制访问权限；private

1.scala中private 与 private[this] 修饰符的区别？

private[包名],private[this] 可以放在字段，方法和类上，用来限制访问权限；

private[包名] 包名可以是父包名或当前包名，如果是父包名，则父包和子包都可以访问
private[this] 修饰的方法或字段 只能在本类访问，如果是字段编译成 java 的时候就没有get或set方法。

2.scala中内部类和java中的内部类区别

scala的内部类和java的内部类有很大差别，java的内部类属于类，scala的内部类属于外部类对象。

https://blog.csdn.net/yyywyr/article/details/50193767
http://hongjiang.info/scala-type-system-inner-type-and-type-projection/

3.Spark中standalone模式特点，有哪些优点和缺点？

自带资源管理服务，不需要依赖其他的资源管理系统，适用于快速开发。

但standalone对资源的分配不如 Yarn。
而且 Yarn 可以运算其他的计算模型比如 MapReduce。

4.FIFO调度模式的基本原理、优点和缺点？

FIFO调度策略只适合一个人

任务队列，先进先出。
优点：简单易懂零配置
缺点：耗时的长任务会导致后提交的任务一直处于等待状态，不适用于共享集群

5.FAIR调度模式的优点和缺点？

Fair Scheduler 试图为每个任务均匀分配资源，比如当前只有任务 1 在执行，那么它拥有整个集群资源，此时任务 2 被提交，那任务 1 和任务 2 将平分集群资源，以此类推。

6.CAPCACITY调度模式的优点和缺点？

CAPCACITY 适合多人同时运行任务

可以在配置文件中为多个队列设置队列层级关系和队列的资源分配比重
mapreduce.job.queuename 来为任务指定队列

优点：弹性分配、多租户租用

7.列举你了解的序列化方法，并谈谈序列化有什么好处？

Hadoop 序列化，实现 Writable 接口。

Spark 默认是 JavaSerializer 实现序列化，可选 KryoSerializer，相比 JavaSerializer 速度提升10倍。

需要注意的是，这里可配的Serializer针对的对象是Shuffle数据，以及RDD Cache等场合，而Spark Task的序列化是通过spark.closure.serializer来配置，但是目前只支持JavaSerializer

8.常见的压缩方式，你们生产集群采用了什么压缩方式，提升了多少效率？

9.简要描述Spark写数据的流程？

10.Spark中 Lineage 的基本原理

11.使用 shll 和 scala 代码实现WordCount？

12.请列举你碰到的CPU密集型的应用场景，你有做哪些优化？

13.Spark RDD 和 MR2的区别

14.Spark读取hdfs上的文件，然后count有多少行的操作，你可以说说过程吗。那这个count是在内存中，还是磁盘中计算的呢？

15.spark和Mapreduce快？为什么快呢？快在哪里呢？

16.spark sql又为什么比hive快呢？

17.RDD的数据结构是怎么样的？

18.RDD算子里操作一个外部map比如往里面put数据。然后算子外再遍历map。会有什么问题吗。

19.hadoop的生态呢。说说你的认识。

20.jvm怎么调优的，介绍你的Spark JVM调优经验？

21.jvm结构？堆里面几个区？

22.怎么用spark做数据清洗

23.spark怎么整合hive？

24.spark读取数据，是几个Partition呢？

25.hbase region多大会分区，spark读取hbase数据是如何划分partition的？

26.画图，画Spark的工作模式，部署分布架构图

27.画图，画图讲解spark工作流程。以及在集群上和各个角色的对应关系。

28.java自带有哪几种线程池。

29.画图，讲讲shuffle的过程。那你怎么在编程的时候注意避免这些性能问题？

30.BlockManager怎么管理硬盘和内存的？

推荐阅读

string
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02
sum
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
uri
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
version
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
python
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
c语言
《程序员的数学》：一本适合初学者的数学指南

结城浩（1963年7月出生），日本资深程序员和技术作家，居住在东京武藏野市。他开发了著名的YukiWiki软件，并在杂志上发表了大量程序入门文章和技术翻译作品。结城浩著有30多本关于编程和数学的书籍，其中许多被翻译成英文和韩文。 ... [详细]

蜡笔小新 2024-11-12 21:47:50
range
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
range
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
object
Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

在多线程并发环境中，普通变量的操作往往是线程不安全的。本文通过一个简单的例子，展示了如何使用 AtomicInteger 类及其核心的 CAS 无锁算法来保证线程安全。 ... [详细]

蜡笔小新 2024-11-12 16:40:04
object
Coviam 实习软件工程师的工作体验与成长

Coviam 实习软件工程师的工作体验与成长 ... [详细]

蜡笔小新 2024-11-11 10:50:46
object
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
string
构建基础的字符串队列实现方法

在探讨如何构建基础的字符串队列实现方法时，我们发现许多开发者在面对这一问题时常常感到困惑。实际上，队列的基本原理非常简单，即遵循先进先出的原则。然而，在具体实现过程中，需要注意的是Java语言中并没有指针的概念，因此需要通过嵌套类来模拟指针，进而构建链表结构。这种实现方式不仅能够有效地管理字符串数据，还能提升代码的可读性和维护性。 ... [详细]

蜡笔小新 2024-11-10 11:11:18
range
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
object
深入解析CAS机制：全面替代传统锁的底层原理与应用

本文深入探讨了CAS（Compare-and-Swap）机制，分析了其作为传统锁的替代方案在并发控制中的优势与原理。CAS通过原子操作确保数据的一致性，避免了传统锁带来的性能瓶颈和死锁问题。文章详细解析了CAS的工作机制，并结合实际应用场景，展示了其在高并发环境下的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 15:45:07
include
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14