目录:
- 入门(上)
- HDFS(中)
- MapReduce&Yarn(下)
- 优化(补充)
一、大数据概述
概念
特点:VVVV
应用场景
二、Hadoop到大数据生态
1、Hadoop生态圈、发展历史、发行版本
2、Hadoop的优势(4高)
3、Hadoop的组成(Common辅助工具+3大【计算、调度、存储】)
具体介绍【尤其MapReduce和yarn】
4、Hadoop生态体系
spark、storm、flink、hbase、sqoop
三、环境搭建
准备虚拟机
安装jdk
安装Hadoop
查看目录结构(bin/sbin/etc/share)
四、运行模式
本地运行
完全分布式运行(编写群起分发脚本xsync、设置ssh无秘钥登录、集群配置、集群启动【hdfs、yarn】)
集群测试(上传、查看路径和内容、拼接、下载、执行wordcount程序、分开启动停止和整体启动停止)
配置历史服务器jobhistory、聚集日志收集、集群时间同步
五、Hadoop编译源码
jdk、maven、ant、g++、OpenSSL、编译源码
错误解决方案