Hadoop2.6.0HDFSRackAwareness（机架感知）原理与配置步骤详解

作者：安徒生笔下苍老了谁1_120 | 来源：互联网 | 2023-09-18 12:17

Hadoop2.6.0HDFSRackAwareness（机架感知）原理与配置步骤详解前言：多副本前提下，在访问HadoopHDFS集群时，访问速度直接受到Datanode选取

Hadoop 2.6.0 HDFS Rack Awareness（机架感知）原理与配置步骤详解

前言：
多副本前提下，在访问Hadoop HDFS集群时，访问速度直接受到Datanode选取策略的影响。Hadoop HDFS提供了一种Rack Awareness机制，以便于粗略计算Client到Datanode的访问开销。本文在Ambari环境下详细分析、介绍两种配置实现机架感知的途径。
（本文基于Hadoop 2.6.0举例）

一、Rack Awareness（机架感知）原理

关于Rack Awareness的原理，官方文档有比较初步的介绍，简单来说就是在Namenode上维护一个树状数据结构的NetworkTopology对象，用来映射Rack、Datanode之间的关系，当Client通过Namenode访问Datanode时，通过一定的策略计算得到访问各个Replication所在Datanode的“距离”。因为我们总是会“认为”跨网段、跨Rack访问是会消耗更多的带宽资源、导致更大的访问延时的。

《Hadoop 2.6.0 HDFS Rack Awareness（机架感知）原理与配置步骤详解》一个HDFS Network Topology的例子

图中有两种节点，Innernode和Datanode,其中Innernode可以是root节点，可以是Datacenter、也可以是Rack，代表着所有非数据实体（switch/router）的节点，Innernode的特点是它所有的叶子节点都是Datanode；Datenode的特点是它没有子树或者自己的叶子节点，它本身只能是叶子节点。
在典型的部署工具中，如Ambari、ClouderaManager，都集成了Rack（机架）信息的管理。实际上，更常见的一种NetworkTopology是这样的三层结构：

《Hadoop 2.6.0 HDFS Rack Awareness（机架感知）原理与配置步骤详解》一种常见的结构

那么，每一个节点都可以用类似文件路径的方式来表示它的定位，比如 /Rack1/Dn1、/Dc2/Rack2/Dn4

HDFS的写访问机制：

在访问者client对HDFS进行写访问时，执行如下原则：
副本数 = 1时：

首先挑选与client相同Host的Datanode进行写操作；
如果没有，则挑选相同Rack的Datanode；
如果再没有，则随机挑选一个Datanode；

副本数 = 2时：

第一个副本按照以上原则选取Datanode进行写操作；
第二个副本选取一个与第一副本不同Rack的Datanode进行写操作；

副本数 = 3时：

第一、第二副本按照以上原则选取Datanode；
第三个副本选取与第一个副本同Rack的不同Datanode进行写操作；

副本数 >= 4时：

前三个副本按照以上原则选取Datanode；
从第四个副本开始，随机选取Datanode进行写操作；

每个节点只保留一份副本，每个Rack不超过两个副本。

HDFS的读访问机制：

HDFS在读取文件的时候会首先获取client的IP，保存在一个clientMachine的字符串对象中，如果是REST调用，则clientMachine就是REST请求发起者，如果是JAVA API访问，clientMachine就是RPC Client。
然后DatanodeManager类会以clientMachine为参数，到NetworkTopology对象里去检索计算它到各个保存有replication的Datanode的距离weight，然后根据weight再进行排序，最后返回给DFSClient进行读取，从而实现“就近”访问。
维护网络拓扑结构的NetworkTopology类是可以自定义的，类名在core-site.xml的net.topology.impl字段里定义，如果该字段未定义，则默认是类org.apache.hadoop.net.NetworkTopology。默认类的计算weight的算法是：

与clientMachine同Host的Datanode，weight = 0；
与clientMachine不同Host，但是同Rack的Datanode，weight = 2；
与clientMachine不同Rack的Datanode，weight = 4；

——实际上就是client到目标Datanode路径长度，如果NetworkTopology类实现了Datacenter，那么对不同Datacenter的Datanode，weight = 6；

二、HDFS实现Rack Awareness的技术途径

Java类直接静态解析

由core-site.xml中的 net.topology.node.switch.mapping.impl字段指定一个自定义实现DNSToSwitchMapping接口类的类：
以下是javashooter给出的一个简单例子：

public class JavaTestBasedMapping implements DNSToSwitchMapping { //key:ip value:rack private static ConcurrentHashMap cache = new ConcurrentHashMap(); static { //rack0 16 cache.put("192.168.5.116", "/ht_dc/rack0"); cache.put("192.168.5.117", "/ht_dc/rack0"); cache.put("192.168.5.118", "/ht_dc/rack0"); cache.put("192.168.5.120", "/ht_dc/rack0"); cache.put("192.168.5.121", "/ht_dc/rack0"); cache.put("host116", "/ht_dc/rack0"); cache.put("host117", "/ht_dc/rack0"); cache.put("host118", "/ht_dc/rack0"); cache.put("host120", "/ht_dc/rack0"); cache.put("host121", "/ht_dc/rack0"); } @Override public List resolve(List names) { List m = new ArrayList(); if (names == null || names.size() == 0) { m.add("/default-rack"); return m; } for (String name : names) { String rack = cache.get(name); if (rack != null) { m.add(rack); } } return m; } }

core-site.xml文件相应的字段修改如下：

topology.node.switch.mapping.impl com.dmp.hadoop.cluster.topology.JavaTestBasedMapping

Java调用外部脚本解析mappingFile

HDFS默认使用的是内置的 org.apache.hadoop.net.ScriptBasedMapping 类，用来调用外部脚本来解析net.topology.script.file.name字段指定的数据文件。

以下是官方文档给出的bash脚本和数据文件示例（为了强调是bash脚本，我特意增加了脚本的#-bang）：

#!/bin/bash #mapping.sh HADOOP_COnF=/etc/hadoop/conf while [ $# -gt 0 ] ; do nodeArg=$1 exec<${HADOOP_CONF}/topology.data result="" while read line ; do ar=( $line ) if [ "${ar[0]}" = "$nodeArg" ] ; then result="${ar[1]}" fi done shift if [ -z "$result" ] ; then echo -n "/default/rack " else echo -n "$result " fi done

dataFile: mapping.data

hadoopdata1.ec.com /dc1/rack1 hadoopdata1 /dc1/rack1 10.1.1.1 /dc1/rack2

core-site.xml文件相应的字段修改如下：

topology.node.switch.mapping.impl org.apache.hadoop.net.ScriptBasedMapping net.topology.script.file.name mapping.sh

基于配置文件的静态解析

HDFS内置的类org.apache.hadoop.net.StaticMapping实现了对core-site.xml
hadoop.configured.node.mapping配置项定义的主机/rack映射关系的解析，相关配置项的格式为：

topology.node.switch.mapping.impl org.apache.hadoop.net.StaticMapping hadoop.configured.node.mapping 192.168.6.10=/rack1,192.168.6.11=/rack2

TableMapping解析

HDFS内置的 org.apache.hadoop.net.TableMapping 类，实现的是对mappingFile的直接解析，mappingFile的格式如下：

192.168.6.10 /rack1 192.168.6.11 /rack2

mappingFile由net.topology.table.file.name配置项定义

几种方法各有优缺点，实际运用中可以灵活组合使用。Ambari和ClouderaManager默认使用的都是ScriptBasedMapping类调用脚本解析。

三、利用Rack Awareness机制对HDFS读取访问进行优化

有了对以上的机制了解，就可以做一些工作来优化HDFS的读取流程，因为在很多情况下，HDFS的用户在物理上是跟Datanode节点同一网段的，这样可以视作是同一个Rack，而因为代表用户的ClientMachine没有Rack信息，在NetworkTopology中会被视作与所有Datanode不同Rack，这显然是不合理的，通过阅读源码，发现DatanodeManager类中有对非Datanode的节点Rack信息的处理，所以，可以考虑把clientMachine引入NetworkTopology，但不归入Datanode，同样作为叶子节点参与路径长度weight的计算，这样就能够更加科学的对包含数据副本的Datanode进行排序，实现读速度优化的目标。这里就不贴源码献丑了。
另外，还可以对通过修改net.topology.impl改变Hadoop使用的NetworkTopology工具类，自己设计构造网络拓扑结构的算法，实现对具体场景下HDFS文件读访问的优化。

以上内容引用部分均以文字说明或链接方式给出。
欢迎转载，转载请联系我并注明来源。

推荐阅读

int
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
int
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
ip
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
input
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
int
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
int
深入理解一致性哈希算法及其应用

本文详细介绍了分布式系统中的一致性哈希算法，探讨其原理、优势及应用场景，帮助读者全面掌握这一关键技术。 ... [详细]

蜡笔小新 2024-12-24 14:08:10
int
深入理解org.neo4j.helpers.collection.Iterators.single()方法及其应用

本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例，帮助开发者更好地理解和应用该方法。 ... [详细]

蜡笔小新 2024-12-28 10:51:55
int
Windows 10 系统中禁用 F1 至 F12 功能键的方法

在 Windows 10 中，F1 至 F12 键默认设置为快捷功能键。本文将介绍几种有效方法来禁用这些快捷键，并恢复其标准功能键的作用。请注意，部分笔记本电脑的快捷键可能无法完全关闭。 ... [详细]

蜡笔小新 2024-12-28 09:13:44
int
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
ip
计算机网络复习：第五章网络层控制平面

本文探讨了网络层的控制平面，包括转发和路由选择的基本原理。转发在数据平面上实现，通过配置路由器中的转发表完成；而路由选择则在控制平面上进行，涉及路由器中路由表的配置与更新。此外，文章还介绍了ICMP协议、两种控制平面的实现方法、路由选择算法及其分类等内容。 ... [详细]

蜡笔小新 2024-12-27 22:54:11
int
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
ip
网络攻防实战：从HTTP到HTTPS的演变

本文通过一系列日记记录了从发现漏洞到逐步加强安全措施的过程，探讨了如何应对网络攻击并最终实现全面的安全防护。 ... [详细]

蜡笔小新 2024-12-27 11:34:50
int
并发编程：深入理解设计原理与优化

本文探讨了并发编程中的关键设计原则，特别是Java内存模型（JMM）的happens-before规则及其对多线程编程的影响。文章详细介绍了DCL双重检查锁定模式的问题及解决方案，并总结了不同处理器和内存模型之间的关系，旨在为程序员提供更深入的理解和最佳实践。 ... [详细]

蜡笔小新 2024-12-26 01:14:06
int
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
actionscrip
理解远程过程调用 (RPC) 的概念与演变

远程过程调用（RPC）是一种允许客户端通过网络请求服务器执行特定功能的技术。它简化了分布式系统的交互，使开发者可以像调用本地函数一样调用远程服务，并获得返回结果。本文将深入探讨RPC的工作原理、发展历程及其在现代技术中的应用。 ... [详细]

蜡笔小新 2024-12-20 15:12:33