主题:Hadoop的体系结构详解(重点)
注意:大数据的一些组件的结构基本上都是主从式的结构
一、Hadoop的分布式文件存储系统HDFS的体系结构
HDFS的体系结构图:
HDFS的伪分布环境下的结构:
HDFS体系结构包括:
(1)、NameNode 名称节点
作用:
(*)维护管理HDFS
(*)接收客户端的请求:上传、下载、创建目录、查看等;
(*)维护了两个重要核心文件:EditLog,FsImage
a、EditLog 代表的是HDFS的操作日志文件
(*) 操作日志文件位置信息:/tmp/dfs/name/current/
(*)日志都是二进制格式 ,edit viewer 将二进制文件转换成xml格式的数据格式
hdfs oev -i edits_inprogress_0000000000000000128 -o ~/edit_inprogress.xml
(*)、EditLog记录了操作HDFS的行为信息
b、FsImage 代表的是HDFS的元信息文件
(*)位置:/tmp/dfs/name/current/
(*)二进制文件,image viewer,将二进制转换成可读的文本或xml格式的数据
hdfs oiv -i fsimage_0000000000000000127 -o ~/fsimage.xml -p XML
(*)记录了数据块的位置信息、数据块的冗余信息等
(2)、DataNode 数据节点
作用:用于保存数据块及将数据块进行水平复制,达到Hadoop数据块冗余度的要求
(*)hadoop 1.x版本的数据块大小 64M hadoop2.x以上的数据块大小 128M
(*)位置:进入到hadoop的安装路径下/training/hadoop-2.7.3/tmp/dfs/data/current/BP-2021293766-192.168.215.163-1551103164079/current/finalized/subdir0/subdir0
(*)案例:
上传一个文件,看看会不会对文件进行切割
(3)、SecondaryNameNode 第二名称节点
作用:将edit的最新信息合并到fsimage文件中,目的是减少集群的启动时间
(*)位置:一般会与NameNode在一起,处于效率的角度考虑
(*)合并过程,画图说明:
(*)检查点什么时候发生:
默认:(1)时间达到60分钟时发生
(2)edit日志文化大小达到64M时发生
二、Hadoop的分布式资源协调框架Yarn的体系结构
(1)、ResourceManager 资源管理器
(2)、NodeManager 节点管理器
三、Hadoop的分布式数据库HBase的体系结构
(1)、HMaster 主节点
(2)、ReginServer 从节点