【原创】HDFS介绍

作者：Remember_Mi | 来源：互联网 | 2023-07-21 15:46

一、HDFS简介1、HDFS全称HadoopDistributedFileSystem，Hadoop分布式文件系统。Hadoop有一个抽象文件系统的概念，Hadoop提供了一个抽象

一、 HDFS简介

1、 HDFS全称

Hadoop Distributed FileSystem，Hadoop分布式文件系统。

Hadoop有一个抽象文件系统的概念，Hadoop提供了一个抽象类org.apache.hadoop.fs.FilesSystem，HDFS是这个抽象类的一个实现。其他还有：

文件系统	URI方案	Java实现（org.apache.hadoop）
Local	file	fs.LocalFileSystem
HDFS	hdfs	hdfs.DistrbutedFilesSystem
HFTP	hftp	hdfs.HftpFilesSystem
HSFTP	hsftp	hdfs.HsftpFilesSystem
HAR	har	fs.HarFileSystem
KFS	kfs	fs.kfs.KosmosFilesSystem
FTP	ftp	Fs.ftp.FtpFileSystem

2、 HDFS特点：

(1) 超大文件数据集群

(2) 流式数据访问方式读取文件

(3) 对硬件要求并不是特别高，有很好的容错机制。

(4) 数据访问有一定的延迟，这是因为HDFS优化的是数据吞吐量，是要以提高延迟为代价的。

(5) HDFS无法高效存储大量小文件。因为NameNode限制了文件个数。

(6) HDFS不支持多个写入者，也不支持随机写。

二、 HDFS体系结构

3、体系结构图

技术分享

4、体系结构介绍

(1) HDFS由Client、NameNode、DataNode、SecondaryNameNode组成。

(2) Client提供了文件系统的调用接口。

(3) NameNode由fsimage(HDFS元数据镜像文件)和editlog(HDFS文件改动日志)组成，NameNode在内存中保存着每个文件和数据块的引用关系。NameNode中的引用关系不存在硬盘中，每次都是HDFS启动时重新构造出来的。

(4) SecondaryNameNode的任务有两个：

l 定期合并fsimage和editlog，并传输给NameNode。

l 为NameNode提供热备份。

(5) 一般是一个机器上安装一个DataNode，一个DataNode上又分为很多很多数据块（block）。数据块是HDFS中最小的寻址单位，一般一个块的大小为64M，不像单机的文件系统，少于一个块大小的文件不会占用一整块的空间。

(6) 设置块比较大的原因是减少寻址开销，但是块设置的也不能过大，因为一个Map任务处理一个块的数据，如果块设置的太大，Map任务处理的数据量就会过大，会导致效率并不高。

(7) DataNode会通过心跳定时向NameNode发送所存储的文件块信息。

(8) HDFS的副本存放规则

默认的副本系数是3，一个副本存在本地机架的本机器上，第二个副本存储在本地机架的其他机器上，第三个副本存在其他机架的一个节点上。

这样减少了写操作的网络数据传输，提高了写操作的效率；另一方面，机架的错误率远比节点的错误率低，所以不影响数据的可靠性。

三、HDFS读写过程

1、数据读取流程图

技术分享

2、读取过程说明

(1) HDFS客户端调用DistributedFileSystem类的open()方法，通过RPC协议请求NameNode来确定说请求的文件所在位置，找出最近的DataNode节点的地址。

(2) DistributedFileSystem会返回一个FSDataInputStream输入流对象给客户端。

(3) 客户端会在FSDatatInputStream上调用read()函数，按照每个DataNode的距离从近到远依次读取。

(4) 读取完每个DataNode后，在FSDataInputStream上调用close()函数。

(5) 如果读取出现故障，就会读取数据块的副本，同时向NameNode报告这个消息。

3、文件的写入流程图

技术分享

4、写入流程说明

(1) 客户端调用DistributedFileSystem对象的create()方法，通过RPC协议调用NameNode，在命名空间创建一个新文件，此时还没有关联的DataNode与之关联。

(2) create()方法会返回一个FSDataOutputStream对象给客户端用来写入数据。

(3) 写入数据前，会将文件分割成包，放入一个“数据队列”中。

(4) NameNode为文件包分配合适的DateNode存放副本，返回一个DataNode的管道。

(5) 根据管道依次保存文件包在各个DataNode上。

(6) 各个DataNode保存好文件包后，会返回确认信息，确认消息保存在确认队列里，当管道中所有的DataNode都返回成功的的确认信息后，就会从确认队列里删除。

(7) 管道中所有的DataNode都保存完成后，调用FileSystem对象的close()关闭数据流。

四、Hadoop的页面接口

1、界面地址

可以通过http://NameNodeIP:50070访问HDFS的Web界面了。

五、HDFS的Java API

1、使用URL读取数据

 1 //用URL接口读取HDFS中文件
 2 static  {
 3     URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory() );
 4 }
 5 public  String  GetHDFSByURL(String url) throws MalformedURLException,IOException
 6 {
 7     String str="";
 8     InputStream in =null;
 9     OutputStream out=null;
10     try {
11         in=new URL(url).openStream();
12         //IOUtils.copyBytes(in,out,4096,false);
13         str=out.toString();
14     }
15     finally {
16         IOUtils.closeStream(in);
17         IOUtils.closeStream(out);
18     }
19     return  str;
20 }

2、 FileSystem API读取数据

//ReadFile
//url:"/user/hadoop/data/write.txt"
public  String  ReadFile(String url)throws IOException
{
    String fileCOntent="";
    Configuration cOnf= new Configuration();
    FileSystem fs = FileSystem.get(conf);
    Path path = new Path(url);

    if(fs.exists(path)){
        FSDataInputStream is = fs.open(path);
        FileStatus status = fs.getFileStatus(path);
        byte[] buffer = new byte[Integer.parseInt(String.valueOf(status.getLen()))];
        is.readFully(0, buffer);
        is.close();
        fs.close();
        fileCOntent=buffer.toString();
    }
    return fileContent;
}

3、 FileSystem API创建目录

//创建HDFS目录
//dirpath： "/user/hadoop/data/20130709"
public  void  MakeDir(String dirpath) throws IOException {
    Configuration cOnf= new Configuration();
    FileSystem fs = FileSystem.get(conf);
    Path path = new Path(dirpath);
    fs.create(path);
    fs.close();
}

4、 FileSystem API写数据

//HDFS写文件
//fileurl:"/user/hadoop/data/write.txt"
public  void  WriteFile(String fileurl,String fileContent)throws IOException
{
    Configuration cOnf= new Configuration();
    FileSystem fs = FileSystem.get(conf);
    Path path = new Path(fileurl);
    FSDataOutputStream out = fs.create(path);
    out.writeUTF(fileContent);
    fs.close();
}

5、 FileSystem API删除文件

//删除文件
//fileurl :"/user/hadoop/data/word.txt"
public void  DeleteFile(String fileurl)throws IOException
{
    Configuration cOnf= new Configuration();
    FileSystem fs = FileSystem.get(conf);

    Path path = new Path(fileurl);
    fs.delete(path,true);
    fs.close();
}

6、查询元数据

//查询文件的元数据
public  void  ShowFileStatus(String fileUrl) throws  IOException
{
    Configuration cOnf= new Configuration();
    FileSystem fs = FileSystem.get(conf);
    Path file=new Path(fileUrl);
    FileStatus stat=fs.getFileStatus(file);
    
    System.out.println("文件路径："+stat.getPath());
    System.out.println("是否是目录："+stat.isDirectory());
    System.out.println("是否是文件："+stat.isFile());
    System.out.println("块的大小："+stat.getBlockSize());
    System.out.println("文件所有者："+stat.getOwner()+":"+stat.getGroup());
    System.out.println("文件权限："+stat.getPermission());
    System.out.println("文件长度："+stat.getLen());
    System.out.println("备份数："+stat.getReplication());
    System.out.println("修改时间："+stat.getModificationTime());
}

【原创】HDFS介绍

推荐阅读

php
在CentOS 6.6 64位系统上部署Tomcat 8服务器环境配置指南

本指南详细介绍了如何在CentOS 6.6 64位系统上以root用户身份部署Tomcat 8服务器。系统环境为CentOS 6.6 64位，采用源码安装方式。所需软件为apache-tomcat-8.0.23.tar.gz，建议将软件下载至/root/opt目录。具体下载地址请参见官方资源。本指南涵盖了从环境准备到服务启动的完整步骤，适用于需要在该系统环境下搭建高性能Web应用服务器的技术人员。 ... [详细]

蜡笔小新 2024-11-08 21:38:15
php
Android 中的 exported 属性详解与应用

在 Android 开发中，`android:exported` 属性用于控制组件（如 Activity、Service、BroadcastReceiver 和 ContentProvider）是否可以被其他应用组件访问或与其交互。若将此属性设为 `true`，则允许外部应用调用或与之交互；反之，若设为 `false`，则仅限于同一应用内的组件进行访问。这一属性对于确保应用的安全性和隐私保护至关重要。 ... [详细]

蜡笔小新 2024-11-10 14:14:26
input
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
php
体积小巧的vsftpd与pureftpd Docker镜像在Unraid系统中的详细配置指南：支持TLS加密及IPv6协议

本文详细介绍了如何在Unraid系统中配置体积小巧的vsftpd和Pure-FTPd Docker镜像，以支持TLS加密和IPv6协议。通过这些配置，用户可以实现安全、高效的文件传输服务，适用于各种网络环境。配置过程包括镜像的选择、环境变量的设置以及必要的安全措施，确保了系统的稳定性和数据的安全性。 ... [详细]

蜡笔小新 2024-11-09 12:46:23
php
Insufficient Memory Allocation: Unable to Reserve 1572864KB for Object Heap

该问题可能由守护进程配置不当引起，例如未识别的JVM选项或内存分配不足。建议检查并调整JVM参数，确保为对象堆预留足够的内存空间（至少1572864KB）。此外，还可以优化应用程序的内存使用，减少不必要的内存消耗。 ... [详细]

蜡笔小新 2024-11-08 20:06:16
php
在Android 4.4中从相册选择图片并获取其路径的方法详解

在Android 4.4系统中，通过使用 `Intent` 对象并设置动作 `ACTION_GET_CONTENT` 或 `ACTION_OPEN_DOCUMENT`，可以从相册中选择图片并获取其路径。具体实现时，需要为 `Intent` 添加相应的类别，并处理返回的 Uri 以提取图片的文件路径。此方法适用于需要从用户相册中选择图片的应用场景，能够确保兼容性和用户体验。 ... [详细]

蜡笔小新 2024-11-06 11:02:36
php
Docker入门指南：初探容器化技术

Docker入门指南：初探容器化技术摘要：Docker 是一个使用 Go 语言开发的开源容器平台，旨在实现应用程序的构建、分发和运行的标准化。通过将应用及其依赖打包成轻量级的容器，Docker 能够确保应用在任何环境中都能一致地运行，从而提高开发和部署的效率。本文将详细介绍 Docker 的基本概念、核心功能以及如何快速上手使用这一强大的容器化工具。 ... [详细]

蜡笔小新 2024-11-06 10:32:10
php
Zookeeper在Hadoop生态系统中的关键作用与应用分析

Zookeeper作为Apache Hadoop生态系统中的一个重要组件，主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能，有效提升了分布式系统的可靠性和可维护性。此外，Zookeeper还支持配置管理和临时节点管理，进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]

蜡笔小新 2024-11-04 15:48:51
php
如何在Mac上构建高效的本地服务器环境

在Mac上构建高效的本地服务器环境，首先需要了解基本步骤：1. 配置目录基础；2. 启动Apache服务；3. 添加自定义文档至本地服务器；4. 查看自定义效果。此外，还可以通过手机或其他电脑访问本机服务器，以确保跨设备的兼容性和调试效果。Mac系统自带的Apache服务为本地开发提供了便捷的工具，本文将详细介绍每个步骤的具体操作方法。 ... [详细]

蜡笔小新 2024-11-04 15:46:21
php
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
function
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
function
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
list
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
instance
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
php
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15

Remember_Mi

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章