作者:艺静不循环_545_191 | 来源:互联网 | 2023-09-04 10:20
数据压缩
1.MapReduce跑得慢的原因
2.优化
3.shuffle机制
4.hadoop集群启动了哪些进程
5.hadoop的配置文件及作用
core.site.xml:fs. defaultFS:hdfs://cluster1(域名) 默认的hdfs路径
hadoop.en.sh: 设置jdk路径
hdfs.site.xml: 设置备份文件块数 节点目录 本地系统路径
mapred.site.xml: yarn指定运行在yarn上
6.hadoop的几个默认端口
7.MapReduce术语
read—map—collect—溢出—combine— (map)
copy—merge—sort—reduce— (reduce)
8.常见算法
单词计数
数据去重
排序
Top K
选择
投影
分组
多表连接(没练习过……)
单表关联