写在前面——
上周我们发布了675道Java面试题集,读者朋友们反响热烈,还有粉丝给我们发私信,希望可以再出一套大数据的面试题。
应广大读者和面试者需求,我们从各招聘公司和学员处收集了1200多道大数据面试题,其中不乏有京东、搜狐、新浪、爱艺奇等大企业面试题,我们从中筛选出其中550道最精华的部分组成这份面试题集,并在此分享给大家。
希望这份大数据面试题可以对你找工作有所帮助,小伙伴们可以私信小编:“资料”领取整套题目+答案哦!
本题集包含Redis、搜索引擎、Spark、Storm和kafka、高并发、Hadoop、hive和SQL、Hbase八个模块,详情如下:
一、Redis
1、redis工作原理
2、kafka为什么要分多个partition?
3、有一个千万用户的网站,活跃用户在百万左右,用户ID是64位长整数。
4、redis bit操作?
5、redis用来做什么? 模型等,频繁调用的放在redis中,取其快
6、Redis中如何向Spark存东西一条一条插,还是一堆一堆插数据,怎么建立连接?
7、你在项目中redis的存储有哪些?
8、Redis是什么,使用场景?
9、redis支持的最大数据量是多少?redis集群下怎么从某一台集群查key-value。
10、列举一个常用的Redis客户端的并发模型。
11、什么是布隆过滤器,其实现原理是?False positive指的是?
12、memcache与redis的区别
13、Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细)
14、HBase与Redis
16、redis支持的数据格式
17、基本操作,存储格式
18、下列对RDD特点描述错误的是()(单选)
19、Spark中的RDD的计算是以什么作为单位的?每个RDD都会实现什么函数以达到这个目的?
20、以下哪一个是Redis不支持的持久化策略( )(单选)
2
搜索引擎
21、用到哪些全文检索的技术
22、lunce和solr
23、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前一个日志文件中有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门),请你统计最热门的10个查询串,要求使用的內存不能超过1G。
24、Elasticsearch使用一种叫做倒排索引的结构来实现快速的全文索,什么是倒排索引,请举例?
3
Spark
25、Spark框架
26、sparkSQL介绍下(RDD、DataFrame)
27、DSL和SQL用哪个比较多?
28、udf和udaf都写过哪些?
29、介绍下udaf
30、spark运行在Yarn上流程(cluster)
31、spark调优
32、宽窄依赖
33、sparkStreaming和Storm比较
34、SparkStreaming与Storm的应用场景
35、sparkon yarn 和mapreduce 中yarn有什么区别
36、spark原理
37、Spark支持的分布式部署方式是? ( )
38、Spark的四大组件下面哪个不是 ( )
39、下面哪个端口不是spark自带服务的端口 ( )
八、Hbase
511、hbase最主要的特点是什么?
512、hbase部署
513、简单描述HBase的 rowley的设计原则?
514、请描述HBase中scan和get的功能以及实现的异同
515、请描述HBase中scan对象的 setCache和 setBatch方法的使用
516、请详细描述 HBase中一个Ce1l的结构
517、请描述如何处理 HBase中 region太多和region太大带来的冲突
518、Hbase的rowKey怎么创建比较好?列簇怎么创建比较好?
519、hbase内部机制是什么?
520、hbase过滤器实现原则
521、描述Hbase,ZooKeeper搭建过程
522、HBase写数据的原理是什么?
523、HBase宕机如何处理?
524、hbase怎么预分区?
525、以start-hbase.sh为起点,Hbase启动的流程是什么?
526、请简述HBASE中compact用途是什么,什么时候触发,分哪两种compact,有何区别,有哪些相关配置参数?
527、hbase的API都有哪些filter?
528、关系型数据库是怎么把数据导出到Hbase 里的?
529、解释Hbase LSM结构树
530、hbase怎么给web前台提供接口来访问?
531、下面对HBase的描述哪些是正确的?( )
532、HBase依赖( )提供消息通信机制?
533、简述HBASE写入数据的过程
534、你们用HBASE存储什么数据?
535、HBase如何实现模糊查询?
536、描述一下Hase的基础架构--- JD
537、写出在hbase shell中的命令
a)hbase中查询表名为test,谁的值=001
b)hbase中查询表名为test, rowley为 user开头的
538、Hbase的持久化数据是存放在HDFS上的,并由 zookeeper协助进行集
群管理,这一说法是()的
539、HBase中的一个表是被划分为很多 regionserver的,这些regionserver分布式地存放在服务器上,这一说法是()
540、HBase可以通过 compact命令操作来做版本间的文件合并,这一说法是的()
由于篇幅原因,小编就给大家介绍到这里,小伙伴们记得转发+关注并私信小编:“资料”领取整套550道面试题+答案哦!