指定hdfs中namenode的地址_大数据入门：HDFS数据读写机制

作者：cb | 来源：互联网 | 2023-09-23 15:09

作为Hadoop的分布式文件系统的HDFS，是Hadoop框架学习当中的重点内容，HDFS的设计初衷，是致力于存储超大文件，

作为Hadoop的分布式文件系统的HDFS&＃xff0c;是Hadoop框架学习当中的重点内容&＃xff0c;HDFS的设计初衷&＃xff0c;是致力于存储超大文件&＃xff0c;能够通过构建在普通PC设备上的集群环境&＃xff0c;以较低成本完成大规模数据存储任务。今天的大数据入门分享&＃xff0c;我们就主要来讲讲HDFS数据读写机制。

HDFS在数据存储上&＃xff0c;具备高可靠性&＃xff0c;提供容错机制&＃xff0c;为整个Hadoop框架的数据处理提供了更稳固的底层支持。这其中&＃xff0c;HDFS数据读写机制是发挥着重要的作用的。

HDFS相关的基本概念
块(block)
这是HDFS的基本思想&＃xff0c;把大的文件分成块&＃xff0c;每块64M。
备份(replicas)
热备份&＃xff1a;b是a的热备份&＃xff0c;如果a坏掉。那么b马上运行代替a的工作。
冷备份&＃xff1a;b是a的冷备份&＃xff0c;如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息&＃xff0c;减少a坏掉之后的损失。
机架 (rack)
由几个DataNode组成的部件称为机架。
MetaData
描述我们要存储数据的数据结构。
HDFS namespace
这个命名空间指的是文件的目录结构&＃xff0c;与我们单个电脑的文件的结构树相似。
EditLog
记录文件系统的metadata变化的事务日志&＃xff0c;是HDFS的核心数据结构。例如&＃xff0c;写入一个文件或修改复制因子都会向EditLog中写入一条record。
FsImage
整个文件系统的命名空间&＃xff0c;包括block到文件的映射&＃xff0c;文件系统的属性(大小&＃xff0c;被分为几个block&＃xff0c;只读&＃xff0c;权限等信息)&＃xff0c;都被存储在一个文件中&＃xff0c;这个文件就是FsImage。
HDFS namespace&＃xff0c;EditLog&＃xff0c;FsImage都存储在NameNode上。
HeartBeat
NameNode和DataNode通过HeartBeat进行通信&＃xff0c;每隔一定时间&＃xff0c;DataNode就会向NameNode发送心跳信号&＃xff0c;以此报告给NameNode&＃xff0c;说我还活着&＃xff0c;这样NameNode 在接到读写任务时&＃xff0c;会发命令给它。

HDFS如何分解文件
HDFS默认会将文件分割成 block&＃xff0c;64M为1个block&＃xff0c;然后将block按键值对存储在HDFS上&＃xff0c;并将键值对的映射存到内存中。每个文件默认会保存3份。
HDFS的基本架构&＃xff0c;按照Master和Slave的结构&＃xff0c;主要的组件包括&＃xff1a;NameNode、SecondaryNameNode、DataNode。
NameNode&＃xff1a;是Master节点&＃xff0c;处理客户端的读、写请求&＃xff1b;管理数据块映射&＃xff1b;管理HDFS的名称空间&＃xff1b;配置副本策略&＃xff1b;
SecondaryNameNode&＃xff1a;合并fsimage和fsedits&＃xff0c;然后再发给namenode&＃xff0c;尽量不要与NameNode部署在同一个host上&＃xff0c;这样避免内存的过多消耗&＃xff1b;NameNode的冷备份&＃xff1b;
DataNode&＃xff1a;Slave节点&＃xff0c;干活的。负责存储client发来的数据块block&＃xff0c;执行数据块的读写操作。

HDFS读写机制
1、数据写入
客户端访问NameNode请求上传文件&＃xff1b;
NameNode检查目标文件和目录是否已经存在&＃xff1b;
NameNode响应客户端是否可以上传&＃xff1b;
客户端请求NameNode文件块Block01上传服务位置&＃xff1b;
NameNode响应返回3个DataNode节点&＃xff1b;
客户端通过输入流建立DataNode01传输通道&＃xff1b;
DataNode01调用DataNode02&＃xff0c;DataNode02调用DataNode03&＃xff0c;通信管道建立完成&＃xff1b;
DataNode01、DataNode02、DataNode03逐级应答客户端。
客户端向DataNode01上传第一个文件块Block&＃xff1b;
DataNode01接收后传给DataNode02&＃xff0c;DataNode02传给DataNode03;
Block01传输完成之后&＃xff0c;客户端再次请求NameNode上传第二个文件块。
2、数据读取
客户端通过向NameNode请求下载文件&＃xff1b;
NameNode查询获取文件元数据并返回&＃xff1b;
客户端通过元数据信息获取文件DataNode地址&＃xff1b;
就近原则选择一台DataNode服务器&＃xff0c;请求读取数据&＃xff1b;
DataNode传输数据返回给客户端&＃xff1b;
客户端以本地处理目标文件。
关于大数据入门&＃xff0c;HDFS数据读写机制&＃xff0c;以上就为大家做了简单的介绍了。在Hadoop框架当中&＃xff0c;HDFS作为分布式文件系统&＃xff0c;地位十分关键&＃xff0c;而想要把HDFS学好学懂&＃xff0c;还是需要多下功夫的。

推荐阅读

go
ABP框架概览及其前后端开发系列（一）

ABP框架是ASP.NET Boilerplate的简称，它不仅是一个开源且文档丰富的应用程序框架，还提供了一套基于领域驱动设计（DDD）的最佳实践架构模型。本文将详细介绍ABP框架的特点、项目结构及其在Web API优先架构中的应用。 ... [详细]

蜡笔小新 2024-11-16 18:09:51
config
MOSS2007 中型服务场配置指南：网络负载均衡集群设置

本文详细介绍了如何在MOSS2007环境中配置网络负载均衡集群，包括安装和配置网络负载均衡功能的具体步骤。通过本文，读者可以了解如何在多台Web服务器上安装并配置网络负载均衡，以实现高效的服务分发。 ... [详细]

蜡笔小新 2024-11-16 14:18:11
config
Android的抓包方法介绍和Socket聊天应用实现方法

http:blog.csdn.netzeo112140articledetails7675195使用TCPdump工具，抓TCP数据包。将数据包上传到PC,通过Wireshark查 ... [详细]

蜡笔小新 2024-11-16 11:12:44
range
图数据库与传统数仓实现联邦查询

图数据库与传统数仓实现联邦查询使用CYPHER实现从关系数据库过滤时间序列指标一、MySQL得到研报实体在Oracle中的唯一ID二、Oracle中过滤时间序列数据三、CYPHER ... [详细]

蜡笔小新 2024-11-16 09:27:34
ip
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
ip
解决KindEditor上传本地图片时服务器异常的问题

近期遇到了一个系统中在线文本编辑器上传本地图片时报服务器异常的问题。经过初步调试和排查，最终找到了解决方案。 ... [详细]

蜡笔小新 2024-11-15 14:08:24
ip
PHP 行为日志记录详解

本文详细介绍了如何在PHP中记录和管理行为日志，包括ThinkPHP框架中的日志记录方法、日志的用途、实现原理以及相关配置。 ... [详细]

蜡笔小新 2024-11-14 09:55:11
io
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
config
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
window
探讨HTTP隧道技术在RDP暴力破解中的应用

本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备，实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析，旨在提升网络安全意识。 ... [详细]

蜡笔小新 2024-11-12 12:08:47
ip
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
ip
如何在PHP中准确获取服务器IP地址？

如何在PHP中准确获取服务器IP地址？ ... [详细]

蜡笔小新 2024-11-10 15:17:16
require
vsftpd配置（虚拟用户、匿名用户登录）

一、ftp服务搭建（一）概述1.ftp连接及传输模式（1）控制连接TCP21，用于发送FTP命令信息 ... [详细]

蜡笔小新 2024-11-15 13:51:33
range
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章