简述hdfs工作原理_HDFS原理概念扫盲

作者：mobiledu2502857827 | 来源：互联网 | 2024-10-12 13:16

1、概述hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？分布式文件系统未出现的时候࿰

1、概述

hdfs文件系统主要设计为了存储大文件的文件系统&＃xff1b;如果有个TB级别的文件&＃xff0c;我们该怎么存储呢&＃xff1f;分布式文件系统未出现的时候&＃xff0c;一个文件只能存储在个服务器上&＃xff0c;可想而知&＃xff0c;单个服务器根本就存储不了这么大的文件&＃xff1b;退而求其次&＃xff0c;就算一个服务器可以存储这么大的文件&＃xff0c;你如果想打开这个文件&＃xff0c;效率会高吗

hdfs的出现就是为了解决上面的问题

hdfs为了满足大文件的存储和可读性&＃xff0c;对数据进行切成多个小块进行存储&＃xff0c;同时为了保证数据的可靠性&＃xff0c;又对每个小块数据做复制&＃xff0c;然后分别存储到多个节点中

hdfs2.7.3后&＃xff0c;默认每个块的大小是128MB&＃xff0c;在hdfs1.0的时候&＃xff0c;默认每个块的大小是64MB

可以通过修改hdfs的配置文件自定义块大小

hdfs-site.xml文件中的dfs.blocksize

默认每个块的副本数是3&＃xff0c;可以通过修改hdfs的配置文件自定义副本数

hdfs-site.xml的dfs.replication

二、hdfs的结构体系

hdfs是一个分布式的文件系统&＃xff0c;采用主从(master/slave)的结构体系&＃xff0c;一个hdfs集群由NameNode和多个datanode组成&＃xff0c;其中namenode作为主节点&＃xff0c;DataNode为从节点

Namenode简称NN

DataNode简称DN

NN的作用

a、存储元数据信息

b、元数据存储两份&＃xff0c;一份在内存中&＃xff0c;一份在硬盘中

c、保存文件、block、datanode的映射关系

DN的作用

a、存储block信息

b、block存储在硬盘中

c、维护block和文件的映射关系

数据存储在内存中是为了读取性能&＃xff0c;保证效率&＃xff0c;数据存储在硬盘中&＃xff0c;为了持久化数据&＃xff0c;保证数据不丢失

三、hdfs的优缺点

1、hdfs的优点

a、支持超大文件

支持超大文件&＃xff0c;这里的超大文件几百MB&＃xff0c;几百GB&＃xff0c;甚至TB级别大小的文件&＃xff0c;一般来说hadoop的文件系统会存储TB级别或者 PB级别的数据&＃xff0c;所以在企业节点中&＃xff0c;数据节点可能有上千个

b、检测和快速应对硬件故障

在集群中环境中&＃xff0c;硬件故障是常见的问题&＃xff0c;因为有上千台服务器&＃xff0c;这样会导致高故障率&＃xff0c;因此故障检测和自动恢复是hdfs文件系统的一个设计目标

c、流式数据访问

Hdfs的数据处理规模比较大&＃xff0c;应用一次要访问大量的数据&＃xff0c;同时这些应用一般都是批量处理&＃xff0c;而不是用户交互式处理&＃xff0c;应用程序能以流的形式访问数据集&＃xff0c;主要是数据的吞吐量&＃xff0c;而不是访问速度&＃xff1b;适合做离线数据的处理

d、简化的一致性模型

大部分 hdfs操作文件时&＃xff0c;需要一次写入&＃xff0c;多次读取&＃xff0c;在 hdfs文件系统中&＃xff0c;一个文件块一旦经过创建&＃xff0c;写入&＃xff0c;关闭后就不允许修改了&＃xff0c;在hdfs2.7后 &＃xff0c;才允许对block进行追加修改&＃xff0c;但是不能改变已有的数据&＃xff0c;这样简单的一致性模型&＃xff0c;保证数据操作的简单化

e、高容错性

数据自动保存多个副本&＃xff0c;副本丢失自动恢复

f、可构建在廉价的机器上

构建在廉价的机器上&＃xff0c;可以启动通过扩展机器个数里线性提高存储能力

2、hdfs的缺点

a、低延迟数据访问

低延迟数据 &＃xff0c;如果用户进行交互的应用&＃xff0c;比如京东&＃xff0c;需要数据在毫秒后者秒级范围内得到响应&＃xff0c;由于 hadoop对高吞吐模型做了优化&＃xff0c;牺牲了获取数据的延迟&＃xff0c;所以对于低延时的应用&＃xff0c;不适合用hadoop&＃xff0c;而且hdfs的数据也不是结构化的数据

b、不适合大量小文件

Hdfs支持超大的文件&＃xff0c;是通过数据分别在不同的数据节点&＃xff0c;数据的元数据保存在namenode上&＃xff0c;namenode的内存大小决定了hdfs可以保存的文件数量&＃xff0c;虽然现在内存已经很大&＃xff0c;但是大量的小文件还是会影响namenode的节点性能&＃xff0c;每个block会占用一片内存空间

c、不支持多次写入文件&＃xff0c;修改文件

为了保证吞吐量&＃xff0c;设计为这样

四、hdfs的技术细节

1、Block

数据块(block)是hdfs存储文件的基本单位

在hdfs中&＃xff0c;有一个特别重要的概念&＃xff0c;数据块(block)&＃xff0c;前面介绍过&＃xff0c;在hdfs存储的文件都是超大数据的文件&＃xff0c;我们可以把这个超大规模的文件以一个标准切分成几块&＃xff0c;分别存储到不同的磁盘上&＃xff0c;这个标准就是block

a、为了存储大文件&＃xff0c;一个服务器很难存储超大型的文件&＃xff0c;拆分的话&＃xff0c;文件块可以保存在不同的磁盘&＃xff0c;在hdfs文件系统中&＃xff0c;一个文件可以分成不同的block存储在不同的磁盘上

b、简化存储系统&＃xff0c;这样就不需要管理文件&＃xff0c;而是直接管理文件块就可以了

c、有利于数据的复制&＃xff0c;在hdfs系统中&＃xff0c;一个block块一般会复制三份(可以修改)&＃xff0c;比如复制一个1TB的数据和复制多个128MB的文件复制哪个更快&＃xff1f;

对于一个文件而言&＃xff0c;一个block id从0开始&＃xff0c;按照固定的大小&＃xff0c;顺序对文件进行划分和编号&＃xff0c;划分好的每一块称一个block。Hdfs默认的block的大小是128MB&＃xff0c;所以一个256MB的文件&＃xff0c;共有256/128&＃61;2个块

不同于普通的文件系统(比如ext4或者ntfs)&＃xff0c;hdfs中&＃xff0c;如果一个文件小于一个数据块的大小&＃xff0c;并不用占用整个数据存储空间&＃xff0c;而是仅仅会占用文件实际大小的空间

2、Namenode

Namenode是维护hdfs中的元信息&＃xff0c;包括文件和block之间的映射关系&＃xff0c;block数量的信息&＃xff0c;block和datanode之间的关系信息&＃xff0c;数据格式参照入下

Filename replicas block-ids id2host/test/log&＃xff0c;3&＃xff0c;{b1,b2},{b1:[host0,host1,host2]} ,{b2:[host3,host4,host5]}

Namenode中的元数据信息存储在内存/磁盘中&＃xff0c;内存中为实时信息&＃xff0c;磁盘中为数据的持久化存储使用使用

在磁盘中存储的信息主要下面两个

fsimage&＃xff1a;元数据的镜像文件&＃xff0c;存储namenode元数据信息

edit&＃xff1a;操作日志文件(比如你上次&＃xff0c;追加内容&＃xff0c;这里只有写操作的日志&＃xff0c;读操作不会记录)

下面重点讲一下这2个文件流程

上面的流程如果明白了&＃xff0c;就会发现有2个问题

a、一般namenode会持续运行&＃xff0c;不会被启动&＃xff0c;那么edit文件会增长很大&＃xff0c;这个时候就不好管理

b、如果edit文件增长到很大&＃xff0c;那么每次namenode启动合并edit文件和fsimage就会很久&＃xff0c;那namenode启动就会很慢

这个时候就有了SNN(second NameNode)

听名字&＃xff0c;大家以为SNN是NN的热备份&＃xff0c;其实SNN是NN的协助者&＃xff0c;帮助进行元数据合并的

a、SNN会定时通过http的get方法从NN获取最新的edit和fsimage文件

b、然后NN会生成一个空的edit文件&＃xff0c;该文件继续接受client的i写请求操作日志

c、SNN拿到最新的edit文件和fsimage文件&＃xff0c;进行合并&＃xff0c;生成最新的fsimage文件

d、SNN通过http的post方法把最新的fsimage文件发送到NN

e、这样就把上面那2个文件解决了

触发checkpoint的条件有3个

a、默认是3600s合并一次&＃xff0c;可以通过修改fs.checkpoint.period自定义

b、根据edit.log文件的大小触发合并&＃xff0c;默认是64MB会触发合并&＃xff0c;可以通过修改fs.checkpoint.size自定义

3、Datanode

在hadoop中&＃xff0c;数据是存放在datanode上面的&＃xff0c;是以block的形式存储的&＃xff0c;datanode节点会不断的向namenode节点发送心跳报告&＃xff0c;初始化&＃xff0c;每个数据节点将当前存储的数据告知namenode节点&＃xff0c;通过向namenode主动发送心跳保持联系&＃xff0c;3s会发送一次

Datanode节点在工作的过程中&＃xff0c;数据节点仍会不断的更新namenode节点与之对应的元数据信息&＃xff0c;并接受来自namenode节点的指令&＃xff0c;创建&＃xff0c;移动或者删除本地磁盘上的数据块

如果10min都没有收到nd的心跳&＃xff0c;则认为其已经挂了&＃xff0c;并copy其上的block到其他dn

五、hdfs的执行流程

1、读数据流程

a、client向远程namenode发起读请求

b、NN会视情况返回文件的部分或者全部block列表&＃xff0c;对于每个block&＃xff0c;namenode都会返回该block的地址和副本的DN的地址

c、客户端会选取最接近的DN来读取block

d、读取完当前的block的数据后&＃xff0c;关闭与当前的DN的连接&＃xff0c;并为读取下一个block寻找最佳的DN

e、当读完列表的block后&＃xff0c;且文件读取还没有结束&＃xff0c;客户端会继续向NN获取下一批的block列表

f、读取完一个block都会进行checksum验证&＃xff0c;如果读取的时候出现错误&＃xff0c;client会通知NN&＃xff0c;然后在从下一个拥有该block块的DN继续读取数据

2、写数据流程

a、client向namenode发起写请求

b、NN会检查路径是否存在、权限是否正确、文件是否存在

c、条件满足后&＃xff0c;client开始写入文件&＃xff0c;首先开发库会将文件拆分成多个packets&＃xff0c;并在内部以数据队列的形式来管理这些packet&＃xff0c;并向NN申请新的blocks&＃xff0c;获取用来存储block和副本的DN的列表&＃xff0c;

d、开始已经pipiline(管道)的形式将packet写入到第一个DN中&＃xff0c;当第一个DN写入成功后&＃xff0c;在将其传递给下一个DN&＃xff0c;直到最后一个DN存储完成

e、然后开始上传下一个packet

3、删除流程

a、现在NN上执行节点名字的删除

b、当NN上执行delete方式时&＃xff0c;他这是标记操作涉及需要被删除的数据块&＃xff0c;而不是主动联系这些数据块所在的DN节点

c、当保存这些数据库的DN节点向NN节点发送心跳时&＃xff0c;在心跳应答里&＃xff0c;NN会向DN发出指令&＃xff0c;从而把数据删除

d、所以在执行delete方法后一段时间内&＃xff0c;数据块才会被删除掉

六、hdfs常见命令

1、查看当前的目录信息

[root&＃64;abdi1 current]# hdfs dfs -ls /

Found 9 items

drwxrwxrwt - yarn hadoop 0 2019-12-03 09:59 /app-logs

drwxr-xr-x - yarn hadoop 0 2019-12-03 09:56 /ats

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:57 /atsv2

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:56 /hdp

drwxr-xr-x - mapred hdfs 0 2019-12-03 09:56 /mapred

drwxrwxrwx - mapred hadoop 0 2019-12-03 09:58 /mr-history

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:57 /services

drwxrwxrwx - hdfs hdfs 0 2019-12-03 09:56 /tmp

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:57 /user

2、创建目录

[root&＃64;abdi1 current]# hdfs dfs -mkdir /test

[root&＃64;abdi1 current]# hdfs dfs -ls /

Found 10 items

drwxrwxrwt - yarn hadoop 0 2019-12-03 09:59 /app-logs

drwxr-xr-x - yarn hadoop 0 2019-12-03 09:56 /ats

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:57 /atsv2

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:56 /hdp

drwxr-xr-x - mapred hdfs 0 2019-12-03 09:56 /mapred

drwxrwxrwx - mapred hadoop 0 2019-12-03 09:58 /mr-history

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:57 /services

drwxr-xr-x - root hdfs 0 2019-12-09 16:31 /test

drwxrwxrwx - hdfs hdfs 0 2019-12-03 09:56 /tmp

drwxr-xr-x - hdfs hdfs 0 2019-12-03 09:57 /user

3、上传文件到hdfs

[root&＃64;abdi1 current]# hdfs dfs -put ./aaaaaaaa /test

[root&＃64;abdi1 current]# hdfs dfs -ls /test

Found 1 items

-rw-r--r-- 3 root hdfs 0 2019-12-09 16:32 /test/aaaaaaaa

4、下载文件到本地文件系统

[root&＃64;abdi1 current]# hdfs dfs -get /test/aaaaaaaa /

[root&＃64;abdi1 current]# ls /

aaaaaaaa bin boot cgroups_test dev etc home lib lib64 lost&＃43;found media mnt opt proc root run sangfor sbin srv sys tmp usr var

5、删除hdfs的文件&＃xff0c;默认会把文件放到回收站中

[root&＃64;abdi1 current]# hdfs dfs -rm /test/aaaaaaaa

19/12/09 16:35:18 INFO fs.TrashPolicyDefault: Moved: &＃39;hdfs://abdi1/test/aaaaaaaa&＃39; to trash at: hdfs://abdi1/user/root/.Trash/Current/test/aaaaaaaa

[root&＃64;abdi1 current]# hdfs dfs -ls /test

6、从hdfs的一个目录拷贝到另外一个目录

[root&＃64;abdi1 current]# hdfs dfs -put ./aaaaaaaa /test

[root&＃64;abdi1 current]# hdfs dfs -mkdir /test1

[root&＃64;abdi1 current]# hdfs dfs -ls /test1

[root&＃64;abdi1 current]# hdfs dfs -ls /test

Found 1 items

-rw-r--r-- 3 root hdfs 0 2019-12-09 16:36 /test/aaaaaaaa

[root&＃64;abdi1 current]# hdfs dfs -cp /test/aaaaaaaa /test1

[root&＃64;abdi1 current]# hdfs dfs -ls /test1

Found 1 items

-rw-r--r-- 3 root hdfs 0 2019-12-09 16:37 /test1/aaaaaaaa

[root&＃64;abdi1 current]#

7、查看文件内容

[root&＃64;abdi1 current]# echo aaaa >> c.txt

[root&＃64;abdi1 current]# cat c.txt

aaaa

[root&＃64;abdi1 current]# hdfs dfs -put ./c.txt /test

[root&＃64;abdi1 current]# hdfs dfs -cat /test/c.txt

aaaa

推荐阅读

config
Linux 网卡绑定的七种工作模式详解

本文深入探讨了Linux系统中网卡绑定（bonding）的七种工作模式。网卡绑定技术通过将多个物理网卡组合成一个逻辑网卡，实现网络冗余、带宽聚合和负载均衡，在生产环境中广泛应用。文章详细介绍了每种模式的特点、适用场景及配置方法。 ... [详细]

蜡笔小新 2024-12-27 10:18:13
string
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
replace
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
config
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
timezone
PHP 5.2.5 安装与配置指南

本文详细介绍了 PHP 5.2.5 的安装和配置步骤，帮助开发者解决常见的环境配置问题，特别是上传图片时遇到的错误。通过本教程，您可以顺利搭建并优化 PHP 运行环境。 ... [详细]

蜡笔小新 2024-12-27 19:05:41
io
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
io
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
string
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
java
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
io
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
string
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
io
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
io
2023年全球运营商网络设备市场预计突破202亿美元

尽管某些细分市场如WAN优化表现不佳，但全球运营商路由器和交换机市场持续增长。根据最新研究，该市场预计在2023年达到202亿美元的规模。 ... [详细]

蜡笔小新 2024-12-27 12:44:44
string
XNA 3.0 游戏编程：从 XML 文件加载数据

本文介绍如何在 XNA 3.0 游戏项目中从 XML 文件加载数据。我们将探讨如何将 XML 数据序列化为二进制文件，并通过内容管道加载到游戏中。此外，还会涉及自定义类型读取器和写入器的实现。 ... [详细]

蜡笔小新 2024-12-27 11:39:44
io
Ralph的Kubernetes进阶之旅：集群架构与对象解析

本文深入探讨了Kubernetes集群的架构和核心对象，详细介绍了Pod、Service、Volume等基本组件，以及更高层次的抽象如Deployment、StatefulSet等，帮助读者全面理解Kubernetes的工作原理。 ... [详细]

蜡笔小新 2024-12-26 14:15:32

mobiledu2502857827

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章