热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【面试真题】今日头条大数据面试100题,收藏备用

长按二维码关注大数据领域必关注的公众号大数据面试100题1、简述WordCount 的实现过程2、简述MapReduce与 Spark 的区别与联系3、Spark 在客户端与集群运行的区别4、相同的

长按二维码关注

大数据领域必关注的公众号



大数据面试100题


1、简述WordCount 的实现过程
2、简述MapReduce与 Spark 的区别与联系
3、Spark 在客户端与集群运行的区别
4、相同的 SQL 在 HiveSql 与 SparkSQL 的实现中,为什么 Spark 比 Hadoop 快
5、简述自定义 UDF实现过程
6、HBase 表设计有哪些注意事项
7、谈谈你对HBase 的 HLog的理解
8、数据同样存在 HDFS,为什么 HBase支持在线查询
9、SparkSQL操作Hive中的数据遇到过什么问题嘛?
10、SparkStreaming与Storm、Flink DataStream的区别与联系
11、海量数据下,用三个 map和一个 reduce 来做 top10,哪种方法最优。
12、数据仓库的模型如何设计
13、简述数据仓库的数据清洗过程
14、谈谈数据仓库业务建模、数据分析方法
15、说一说数据仓库是怎么设计的
16、数仓设计规范包含哪些方面
17、数仓数据质量如何监控
18、说一说你们的项目包含哪些数仓主题
19、简述数仓拉链表的实现原理
20、有没有遇到数据倾斜的问题(场景、解决方式)
21、手写 map-reduce,两份数据,一份是设备 id+用户 id,一份是设备 id+点击的广告+ 点击时间,找出每个用户id 每天 10 条最新的广告点击记录
22、手写SQL查询出用户连续七天登录的用户(user_id,login_date)
23、Sqoop 增量导入数据是如何实现的
24、Flume 事务是如何实现的
25、从Kafka 消费者角度考虑是拉取数据还是推送数据
26、Kafka 中的数据是有序的吗
27、Kafka 数据推送失败后怎么处理
28、Kafka 如何保证生产者精确发送一次?
29、Kafka 数据重复怎么处理?
30、Spark Streaming 如何实现精准一次消费?
31、谈谈项目中,Hive优化是怎么做的?
32、如何手写MR实现Hive Join操作?
33、Hive如何处理数据倾斜的?
34、Hive执行碰到过 oom 情况吗?什么原因导致的,怎么处理的?
35、Hbase 包含哪些组件?
36、什么情况下会用到HBase数据库?
37、简述Hbase 的读写流程
38、简述Spark任务提交的流程
39、简述Spark的两种核心Shuffle
40、你们项目中HBase是如何建模设计的?
41、你们的项目中是如何设计HBase Rowkey的?
42、你们的项目是如何实现数据精确一次消费的?
43、你们的项目是如何解决数据倾斜问题?
44、你们项目是否会丢失数据?如何做的数据治理?
45、你们项目技术选型为什么是Spark而不是Flink,有哪些优缺点?
46、HBase数据库数据读写为什么这么快?
47、消费不到Kafka数据该怎么办?
48、手写Spark RDD实现TOPN
题目描述:手写Spark RDD统计用户成绩前10的记录,字段包含user_id, score。
49、利用spark-sql手写一个DataFrame实现WordCount
50、谈谈数据仓库的建模与分层
51、介绍一下Flink容错机制
52、谈谈你对Spark调优及数据倾斜的处理方式
53、Hbasse 和 mysql 区别和存储原理
54、kafka 的底层原理,kafka 如何保证全局消费数据有序
55、简述yarn底层原理、执行流程和yarn 底层使用的算法
56、谈谈你对hive udf、udaf、udtf的理解
57、简述Hive转换为MR的过程
58、谈谈你对Flink watermark的理解
59、谈谈你对Flink barrier机制的理解
60、谈谈你对Flink checkpoint机制的理解
61、谈谈你们项目中对Kafka做了哪些调优?
62、简述Hive任务提交过程
63、如何对Kafka进行监控?
64、如何对Kafka进行重分区?
65、用Cannal 监控mysql之后,Scala 怎么通过 SparkStreaming 去消费的?
66、谈谈你对多线程和多进程的理解
67、MySQL 引擎是什么,常用的是哪个 innodb,知道原理吗?
68、常用的数据结构都有哪些?并举例说明其应用场景?
69、MySQL 优化,怎么建索引?
70、算法:给 2 个有序数组,合并成一个有序数组
71、SQL排名取值
题目描述:有一个班级学生成绩表,包含班级,学号,科目,分数等字段,现在求某个班级总分最高的前五名?
72、数组目标数据查找算法
题目描述:如何查找有序数组中的目标值?二分查找法,请简述二分查找法的实现原理?
73、SQL分组统计
题目描述:有一个用户观看视频的时长表,现在要求统计时间在0-1分钟,1-10分钟的用户数?
74、g1回收器和cms 有哪些区别?
75、jvm该如何调整?
76、SQL开窗函数使用
题目描述:表字段为:department_id、user_id、amount,现在要求统计每个部门、每个人的薪资占部门薪资的比例。
77、算法题:最长回文子串. 给定一个字符串 s,找到 s 中最长的回文子串
78、谈谈你对二叉树算法的理解?
79、谈谈你对Java线程安全、锁和线程池的理解?
80、链表反转排序如何实现
81、谈谈你对LRU算法的理解
82、谈谈你对深度优先搜索的理解?
83、Java heap是如何分代的?
84、谈谈你对线程安全与可重入的理解
85、jvm包含哪些常见的垃圾回收算法
86、谈谈你对Java并发包的理解
87、说说线程池几个配置参数含义
88、谈谈你对redis跳表的理解
89、Java中Spring单例模式如何使用
90、谈谈你对Spring ioc的理解
91、谈谈你对回文函数的理解
92、算法基础建模有哪些?
93、redis底层原理?以及如何预估数据量?
94、谈谈你对聚类kmeans算法的理解
95、求字符串中首先出现 3 次且仅出现 3 次的字符
96、两个链表第一次交叉的节点

题目描述:给定两个可能有环也可能无环的单链表,头节点head1和head2。请实现一个函数,如果两个链表相交,请返回相交的 第一个节点。如果不相交,返回null

【要求】

如果两个链表长度之和为N,时间复杂度请达到O(N),额外空间复杂度请达到O(1)。

97、有用过树结构么?什么场景下用到的?
98、如何实现一个map数据结构?什么场景下使用map?
99、用Java如何实现一个List
100、谈谈你对Linux fork命令的理解与使

欢迎点赞 + 收藏 + 在看  素质三连 


往期精彩回顾
程序员,如何避免内卷
Apache 架构师总结的 30 条架构原则
【全网首发】Hadoop 3.0分布式集群安装
大数据运维工程师经典面试题汇总(附带答案)
大数据面试130题
某集团大数据平台整体架构及实施方案完整目录
大数据凉凉了?Apache将一众大数据开源项目束之高阁!
实战企业数据湖,抢先数仓新玩法
Superset制作智慧数据大屏,看它就够了
Apache Flink 在快手的过去、现在和未来
华为云-基于Ambari构建大数据平台(上)
华为云-基于Ambari构建大数据平台(下)
【HBase调优】Hbase万亿级存储性能优化总结
【Python精华】100个Python练手小程序
【HBase企业应用开发】工作中自己总结的Hbase笔记,非常全面!
【剑指Offer】近50个常见算法面试题的Java实现代码

长按识别左侧二维码

     关注领福利    

  领10本经典大数据书


推荐阅读
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • NoSQL数据库,即非关系型数据库,有时也被称作Not Only SQL,是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求,特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能,支持分布式部署,能够有效应对互联网时代的海量数据挑战。 ... [详细]
  • 如何提升Python处理约1GB数据集时的运行效率?
    如何提升Python处理约1GB数据集时的运行效率?本文探讨了在后端开发中使用Python处理大规模数据集的优化方法。通过分析常见的性能瓶颈,介绍了多种提高数据处理速度的技术,包括使用高效的数据结构、并行计算、内存管理和代码优化策略。此外,文章还提供了在Ubuntu环境下配置和测试这些优化方案的具体步骤,适用于从事推荐系统等领域的开发者。 ... [详细]
  • Phoenix 使用体验分享与深度解析
    闲来无事看了下hbase方面的东西,发现还好理解不过不大习惯于是找到个phoenix感觉不错性能指标如下好像还不错了准备工作:启动hadoop集群启动zookkeeper启动hba ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • HBase Java API 进阶:过滤器详解与应用实例
    本文详细探讨了HBase 1.2.6版本中Java API的高级应用,重点介绍了过滤器的使用方法和实际案例。首先,文章对几种常见的HBase过滤器进行了概述,包括列前缀过滤器(ColumnPrefixFilter)和时间戳过滤器(TimestampsFilter)。此外,还详细讲解了分页过滤器(PageFilter)的实现原理及其在大数据查询中的应用场景。通过具体的代码示例,读者可以更好地理解和掌握这些过滤器的使用技巧,从而提高数据处理的效率和灵活性。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
author-avatar
mobiledu2502889283
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有