HDFS基础部分详解

精选30&＃43;云产品&＃xff0c;助力企业轻松上云&＃xff01;>>>

上一篇文章 Hadoop 系列之 1.0和2.0架构 中&＃xff0c;提到了 Google 的三驾马车&＃xff0c;关于分布式存储&＃xff0c;计算以及列式存储的论文&＃xff0c;分别对应开源的 HDFS,Mapreduce以及 HBase。这里的 HDFS 是分布式文件系统&＃xff0c;主要用于数据的存储。它的应用非常广泛&＃xff0c;作为一款开源的文件系统&＃xff0c;其高容错性、可靠性以及可部署在廉价机器上的特点&＃xff0c;受到很多开发者的青睐。

今天我们就来撩一撩这个分布式文系统&＃xff0c;HDFS 全称 Hadoop Distributed File System&＃xff0c;初学者只需要知道我们大数据解决的两个主要问题就可以了&＃xff0c;一个是数据如何存储&＃xff0c;另一个是数据如何计算。本文的 HDFS 就是数据存储的一种方式。好了&＃xff0c;说了这么多&＃xff0c;大家应该对这个 HDFS 有一个清晰的认识了吧&＃xff1f;说白了&＃xff0c;就是一个文件系统&＃xff0c;但是与我们普通的文件系统有很多不同。比如&＃xff1a;多副本&＃xff0c;分布式&＃xff0c;自动备份等等。

有人会问了&＃xff0c;Hadoop 不是凉了吗&＃xff1f;Spark, Flink 才是未来。O__O "…

这样说是不全面的&＃xff0c;带有全盘否定的眼光。我们常说的 Hadoop 是指 HDFS &＃43; MapReduce &＃43; Yarn&＃xff0c;其中 HDFS 和 Yarn 在如今的流式计算中也发挥着重要的作用&＃xff0c;后面会提到。事实上有很多离线数仓都是使用 Hive 跑在 MapReduce 计算框架之上的。抓住技术的发展趋势没错&＃xff0c;但是作为初学者&＃xff0c;学习思想不会错&＃xff0c;对比每个框架的架构思想&＃xff0c;你会发现&＃xff0c;不管是宝刀未老的 Hadoop &＃xff0c;还是站在巨人肩膀上的 Flink&＃xff0c; 都是基于分布式的思想&＃xff0c;在 CAP 之间权衡&＃xff0c;为我们的大数据提供更快速的算力&＃xff0c;为我们的数据提供更可靠的港湾。

1 HDFS 是什么

它是一个分布式文件存储系统&＃xff0c;全称是 Hadoop Distributed File System 。HDFS is built using the Java language。为什么会出现这个呢&＃xff1f;想象一个场景&＃xff0c;数据随着业务的增长飞快的积累&＃xff0c;达到了PB甚至更大的量级&＃xff0c;这时候受网络带宽和单机节点的资源限制的影响&＃xff0c;海量的数据无法进行存储&＃xff0c;如何存储&＃xff0c;万一数据丢了怎么办&＃xff1f;这一系列问题&＃xff0c;在 HDFS 中都将迎刃而解。HDFS 就是解决海量数据的存储问题。百度网盘就是一个现实的例子&＃xff0c;它的成功离不开分布式存储技术。

2 HDFS 的优缺点

优点&＃xff1a;

处理海量数据&＃xff0c;TB , PB ...

支持处理百万规模以上的文件数量&＃xff0c; 10k&＃43;节点

适合批处理 &＃xff0c;移动计算而非数据&＃xff0c;数据位置暴露给计算框架

可构建在廉价机器上

可靠性高&＃xff0c;多个副本

自动创建多个副本&＃xff0c;副本丢失后自动恢复&＃xff0c;高容错性

缺点&＃xff1a;

不支持毫秒级别

吞吐量达但受限于延迟

不允许修改文件&＃xff08;其实本身支持&＃xff0c;但不这么做&＃xff0c;为了性能&＃xff09;

当然上面不是我瞎编出来的&＃xff0c;下面是官方的说明&＃xff0c;请对号入座。

点击图片放大

3 HDFS 的组成

下面来说一下 HDFS 包含的两个大的角色&＃xff1a;

NameNode 和 DataNode。了解 web 系统结构的小伙伴一定知道主备架构&＃xff0c;master/slave 这样的设计。没错&＃xff0c;HDFS 的 NameNode 和 DataNode 就是 master 和 slave 的关系。

通过上面这张图也可以看出&＃xff1a;

NameNode 主要负责管理元数据信息&＃xff0c;通过管理命名空间并接受客户端的读写请求。NameNode 既然管理命名空间&＃xff0c;就意味着管理打开、关闭、重命名文件或目录等命令&＃xff0c;同时也负责管理 blocks 和 DataNode 节点的映射管理。

DataNode 上面存储着一个个的 Block 块&＃xff0c;那么他就会响应客户端的读写请求&＃xff0c;同时负责执行来自 NameNode 的 block 的创建、删除、复制等等命令。

我们的 NameNode 只负责元数据的管理&＃xff0c;主要是管理工作。数据其实上是客户端直接通过 DataNode 流入流出的、想一想&＃xff0c;这样的设计有什么好处呢&＃xff1f;当我们数据请求很多时&＃xff0c;我们的 NameNode 是没有什么压力的&＃xff0c;全部的压力都在 DataNode 上面&＃xff0c;我们只需要水平扩展数据节点就可以提高整个集群的吞吐量了。

NameNode 主要干这些&＃xff1a;

接受客户端的读、写请求&＃xff0c;注意这里不是说数据通过 NameNOde 流入流出。

接收 DateNode 汇报 block 列表

保存元数据&＃xff0c;元数据是基于内存的。数据包括文件的大小&＃xff0c;归属&＃xff0c;偏移量列表等
block 的位置信息&＃xff0c;在启动的时候上报给 NN,并且动态更新。一般是3秒一次

DataNode 主要做这些&＃xff1a;就是用来存储数据的。逻辑上分为各个block 块

4 Data 副本

因为数据被切分为 Blocks 之后&＃xff0c;副本需要分散到集群里面&＃xff0c;所以下面和这个放置策略很有用。&＃xff08;前提是你的集群配置了机架信息&＃xff09;&＃xff0c;这个副本数默认是 3 &＃xff0c;我们可以自己自定义&＃xff0c;但是不能超过 DataNode 节点的个数&＃xff0c;因为 NameNode 不允许 DataNode 的一个节点上有多个相同的副本。

第一个副本&＃xff0c;如果在集群内部会放到上传的这台服务器的 DN 上。如果是集群外&＃xff0c;则会随机找一个空闲的机器。
第二个副本&＃xff0c;放置在与第一个副本不同机架的节点上。
第三个副本&＃xff0c;放置在与第二个副本相同机架的不同节点上。
更多副本&＃xff0c;随机

这里也可以叫做「机架感知防止策略」

下面是官网的描述&＃xff1a;

点击图片放大

5 副本选择

依据我们上面机架感知、副本放置策略&＃xff0c;我们客户端在拿数据的时候&＃xff0c;是基于什么样的原则呢&＃xff1f;这个也很好理解&＃xff0c;就近选择&＃xff0c;也符合我们的常识。为了减少带宽和延迟&＃xff0c;优先选择里我们客户端最近的网络节点拿数据。下面是官方的描述&＃xff1a;

点击图片放大

6 安全模式

当启动的时候&＃xff0c;NameNode 会进入一个特殊的模式叫做安全模式。这个时候副本是不可以复制的。NameNode 接受来自 DataNode 的心跳和 block 报告信息&＃xff0c;后者包括该数据节点承载的数据块列表。每个数据块&＃xff08;block&＃xff09;都有一个最小的副本数&＃xff0c;如果NameNode 检查符合条件&＃xff0c;就说明这个数据块是安全的。上面的汇报以及检查工作完成会后&＃xff0c;再过 30 秒&＃xff0c;就会退出安全模式了&＃xff01;

7 通讯协议

所有 HDFS 通信协议都基于TCP/IP协议之上。客户机建立到 NameNode 节点计算机上可配置TCP端口的连接。它与namenode对话clientProtocol。数据节点使用数据节点协议与 NameNode 通信。远程过程调用&＃xff08;RPC&＃xff09;抽象包含客户机协议和数据节点协议。根据设计&＃xff0c;namenode从不启动任何 rpc。相反&＃xff0c;它只响应由数据节点或客户机发出的RPC请求。

8 三种故障类型

The three common types of failures are NameNode failures, DataNode failures, and network partitions.

网络延迟&＃xff0c;通讯发生延迟&＃xff0c;造成假死。
NameNode 元数据丢失
DataNode 数据块损坏

9 HDFS HA

这里只展示基于QJM(Quorum Journal Manager) 的HA&＃xff0c;Active 和 Standby NameNode 通过 QJM 集群来共享 edit log 。这种方式比较优雅&＃xff0c;可以自动的切换主备。我之前写过一篇文章就讲了 Hdfs HA 的实现原理。主要是元数据的共享和两个 NameNode 的切换。查看文章&＃xff1a;Hadoop HA 深度解剖

点击图片放大

10 HDFS 读流程

角色&＃xff1a;HDFS Client , NameNode, DateNode

1,首先 HDFS 调用 FileSystem 对象的 Open 方法获取一个 DistributedFileSystem 实例&＃xff1b;

2, DistributedFileSystem 通过 RPC协议获取第一批 block localtions&＃xff08;第一批 block 块的位置&＃xff09;&＃xff0c;同一个 block 和副本都会返回位置信息&＃xff0c;这些位置信息按照 Hadoop 的拓扑结构给这些位置排序&＃xff0c;就近原则。

3.前两部会生成一个 FSDataInputStream &＃xff0c;该对象会被封装 DFSInputStream 对象&＃xff0c;DFSInputStream 可以方便的管理 DataNode 和 NameNode 数据流。客户端调用 read 方法&＃xff0c;DFSInputStream 最会找出离客户端最近的 DataNode 并连接。

4.数据从 datanode 源源不断的流向客户端。这些操作对客户端来说是透明的&＃xff0c;客户端的角度看来只是读一个持续不断的流。

5.如果第一批 block 都读完了&＃xff0c; DFSInputStream 就会去 NameNode 拿下一批 block 的 locations&＃xff0c;然后继续读&＃xff0c;如果所有的块都读完&＃xff0c;这时就会关闭掉所有的流。

如果在读数据的时候&＃xff0c; DFSInputStream 和 datanode的通讯发生异常&＃xff0c;就会尝试正在读的 block 的排序第二近的datanode,并且会记录哪个 datanode 发生错误&＃xff0c;剩余的blocks 读的时候就会直接跳过该 datanode。DFSInputStream 也会检查 block 数据校验和&＃xff0c;如果发现一个坏的 block, 就会先报告到 NameNode 节点&＃xff0c;然后DFSInputStream 在其他的 Datanode 上读该 block 的镜像。该设计就是客户端直接连接 Datanode 来检索数据并且namenode 来负责为每一个 block 提供最优的 datanode&＃xff0c;NameNode 仅仅处理 block location 的请求&＃xff0c;这些信息都加载在 NameNode 的内存中&＃xff0c;hdfs 通过 DataNode 集群可以承受大量客户端的并发访问。

RPC 跨越了传输层和应用层。RPC 使得开发包括网络分布式多程序在内的应用程序更加容易。

11 HDFS的写流程

1、客户端通过调用 DistributedFileSystem 的 create 方法创建新文件。

2、DistributedFileSystem 通过 RPC 调用 namenode 去创建一个没有 blocks 关联的新文件&＃xff0c;创建前&＃xff0c; namenode 会做各种校验&＃xff0c;比如文件是否存在&＃xff0c;客户端有无权限去创建等。如果校验通过&＃xff0c; namenode 就会记录下新文件&＃xff0c;否则就会抛出IO异常。

3、前两步结束后&＃xff0c;会返回 FSDataOutputStream 的对象&＃xff0c;与读文件的时候相似&＃xff0c;FSDataOutputStream 被封装成DFSOutputStream。DFSOutputStream 可以协调 namenode 和 datanode。客户端开始写数据到 DFSOutputStream&＃xff0c;DFSOutputStream 会把数据切成一个个小的 packet&＃xff0c;然后排成队列 data quene。

4、DataStreamer 会去处理接受 data quene&＃xff0c;它先询问namenode 这个新的 block 最适合存储的在哪几个 datanode 里(比如重复数是 3&＃xff0c;那么就找到 3 个最适合的 datanode)&＃xff0c;把他们排成一个管道 pipeline 输出。DataStreamer 把packet 按队列输出到管道的第一个 datanode 中&＃xff0c;第一个datanode 又把 packet 输出到第二个 datanode 中&＃xff0c;以此类推。

5、DFSOutputStream 还有一个对列叫 ack quene&＃xff0c;也是由 packet 组成等待 datanode 的收到响应&＃xff0c;当 pipeline 中的 datanode 都表示已经收到数据的时候&＃xff0c;这时 ack quene才会把对应的 packet 包移除掉。如果在写的过程中某个datanode 发生错误&＃xff0c;会采取以下几步:

① pipeline 被关闭掉;

② 为了防止防止丢包。ack quene 里的 packet 会同步到 data quene 里;创建新的 pipeline 管道怼到其他正常 DN上剩下的部分被写到剩下的两个正常的 datanode 中;

③ namenode 找到另外的 datanode 去创建这个块的复制。当然&＃xff0c;这些操作对客户端来说是无感知的。

6.客户端完成写数据后调用 close 方法关闭写入流。

推荐阅读

Hive 数据压缩格式总结

CombineFileInputFormat 文件分片总结

Hive基础部分详解

本文分享自微信公众号 - 大数据每日哔哔&＃xff08;bb-bigdata&＃xff09;。
如有侵权&＃xff0c;请联系 support&＃64;oschina.cn 删除。
本文参与“OSC源创计划”&＃xff0c;欢迎正在阅读的你也加入&＃xff0c;一起分享。