热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Hadoop2.6.0HDFSRackAwareness(机架感知)原理与配置步骤详解

Hadoop2.6.0HDFSRackAwareness(机架感知)原理与配置步骤详解前言:  多副本前提下,在访问HadoopHDFS集群时,访问速度直接受到Datanode选取
Hadoop 2.6.0 HDFS Rack Awareness(机架感知)原理与配置步骤详解

前言:
  多副本前提下,在访问Hadoop HDFS集群时,访问速度直接受到Datanode选取策略的影响。Hadoop HDFS提供了一种Rack Awareness机制,以便于粗略计算Client到Datanode的访问开销。本文在Ambari环境下详细分析、介绍两种配置实现机架感知的途径。
(本文基于Hadoop 2.6.0举例)

一、Rack Awareness(机架感知)原理

  关于Rack Awareness的原理,官方文档有比较初步的介绍,简单来说就是在Namenode上维护一个树状数据结构的NetworkTopology对象,用来映射Rack、Datanode之间的关系,当Client通过Namenode访问Datanode时,通过一定的策略计算得到访问各个Replication所在Datanode的“距离”。因为我们总是会“认为”跨网段、跨Rack访问是会消耗更多的带宽资源、导致更大的访问延时的。

《Hadoop 2.6.0 HDFS Rack Awareness(机架感知)原理与配置步骤详解》 一个HDFS Network Topology的例子

图中有两种节点,Innernode和Datanode,其中Innernode可以是root节点,可以是Datacenter、也可以是Rack,代表着所有非数据实体(switch/router)的节点,Innernode的特点是它所有的叶子节点都是Datanode;Datenode的特点是它没有子树或者自己的叶子节点,它本身只能是叶子节点。
在典型的部署工具中,如Ambari、ClouderaManager,都集成了Rack(机架)信息的管理。实际上,更常见的一种NetworkTopology是这样的三层结构:

《Hadoop 2.6.0 HDFS Rack Awareness(机架感知)原理与配置步骤详解》 一种常见的结构

那么,每一个节点都可以用类似文件路径的方式来表示它的定位,比如 /Rack1/Dn1/Dc2/Rack2/Dn4

  • HDFS的写访问机制:

在访问者client对HDFS进行写访问时,执行如下原则:
副本数 = 1时:

  1. 首先挑选与client相同Host的Datanode进行写操作;
  2. 如果没有,则挑选相同Rack的Datanode;
  3. 如果再没有,则随机挑选一个Datanode;

副本数 = 2时:

  1. 第一个副本按照以上原则选取Datanode进行写操作;
  2. 第二个副本选取一个与第一副本不同Rack的Datanode进行写操作;

副本数 = 3时:

  1. 第一、第二副本按照以上原则选取Datanode;
  2. 第三个副本选取与第一个副本同Rack的不同Datanode进行写操作;

副本数 >= 4时:

  1. 前三个副本按照以上原则选取Datanode;
  2. 从第四个副本开始,随机选取Datanode进行写操作;

每个节点只保留一份副本,每个Rack不超过两个副本。

  • HDFS的读访问机制:

HDFS在读取文件的时候会首先获取client的IP,保存在一个clientMachine的字符串对象中,如果是REST调用,则clientMachine就是REST请求发起者,如果是JAVA API访问,clientMachine就是RPC Client。
然后DatanodeManager类会以clientMachine为参数,到NetworkTopology对象里去检索计算它到各个保存有replication的Datanode的距离weight,然后根据weight再进行排序,最后返回给DFSClient进行读取,从而实现“就近”访问。
维护网络拓扑结构的NetworkTopology类是可以自定义的,类名在core-site.xml的net.topology.impl字段里定义,如果该字段未定义,则默认是类org.apache.hadoop.net.NetworkTopology。默认类的计算weight的算法是:

  1. 与clientMachine同Host的Datanode,weight = 0;
  2. 与clientMachine不同Host,但是同Rack的Datanode,weight = 2;
  3. 与clientMachine不同Rack的Datanode,weight = 4;

——实际上就是client到目标Datanode路径长度,如果NetworkTopology类实现了Datacenter,那么对不同Datacenter的Datanode,weight = 6;

二、HDFS实现Rack Awareness的技术途径

  1. Java类直接静态解析

由core-site.xml中的 net.topology.node.switch.mapping.impl字段指定一个自定义实现DNSToSwitchMapping接口类的类:
以下是javashooter给出的一个简单例子:

public class JavaTestBasedMapping implements DNSToSwitchMapping {
//key:ip value:rack
private static ConcurrentHashMap cache = new ConcurrentHashMap();
static {
//rack0 16
cache.put("192.168.5.116", "/ht_dc/rack0");
cache.put("192.168.5.117", "/ht_dc/rack0");
cache.put("192.168.5.118", "/ht_dc/rack0");
cache.put("192.168.5.120", "/ht_dc/rack0");
cache.put("192.168.5.121", "/ht_dc/rack0");
cache.put("host116", "/ht_dc/rack0");
cache.put("host117", "/ht_dc/rack0");
cache.put("host118", "/ht_dc/rack0");
cache.put("host120", "/ht_dc/rack0");
cache.put("host121", "/ht_dc/rack0");
}
@Override
public List resolve(List names) {
List m = new ArrayList();

if (names == null || names.size() == 0) {
m.add("/default-rack");
return m;
}

for (String name : names) {
String rack = cache.get(name);
if (rack != null) {
m.add(rack);
}
}

return m;
}
}

core-site.xml文件相应的字段修改如下:


topology.node.switch.mapping.impl
com.dmp.hadoop.cluster.topology.JavaTestBasedMapping

  1. Java调用外部脚本解析mappingFile

HDFS默认使用的是内置的 org.apache.hadoop.net.ScriptBasedMapping 类,用来调用外部脚本来解析net.topology.script.file.name字段指定的数据文件。

以下是官方文档给出的bash脚本和数据文件示例(为了强调是bash脚本,我特意增加了脚本的#-bang):

#!/bin/bash
#mapping.sh
HADOOP_COnF=/etc/hadoop/conf
while [ $# -gt 0 ] ; do
nodeArg=$1
exec<${HADOOP_CONF}/topology.data
result=""
while read line ; do
ar=( $line )
if [ "${ar[0]}" = "$nodeArg" ] ; then
result="${ar[1]}"
fi
done
shift
if [ -z "$result" ] ; then
echo -n "/default/rack "
else
echo -n "$result "
fi
done

dataFile: mapping.data

hadoopdata1.ec.com /dc1/rack1
hadoopdata1 /dc1/rack1
10.1.1.1 /dc1/rack2

core-site.xml文件相应的字段修改如下:


topology.node.switch.mapping.impl
org.apache.hadoop.net.ScriptBasedMapping


net.topology.script.file.name
mapping.sh

  1. 基于配置文件的静态解析

HDFS内置的类org.apache.hadoop.net.StaticMapping实现了对core-site.xml
hadoop.configured.node.mapping配置项定义的主机/rack映射关系的解析,相关配置项的格式为:


topology.node.switch.mapping.impl
org.apache.hadoop.net.StaticMapping


hadoop.configured.node.mapping
192.168.6.10=/rack1,192.168.6.11=/rack2

  1. TableMapping解析

HDFS内置的 org.apache.hadoop.net.TableMapping 类,实现的是对mappingFile的直接解析,mappingFile的格式如下:

192.168.6.10 /rack1
192.168.6.11 /rack2

mappingFile由net.topology.table.file.name配置项定义

几种方法各有优缺点,实际运用中可以灵活组合使用。Ambari和ClouderaManager默认使用的都是ScriptBasedMapping类调用脚本解析。

三、利用Rack Awareness机制对HDFS读取访问进行优化

  有了对以上的机制了解,就可以做一些工作来优化HDFS的读取流程,因为在很多情况下,HDFS的用户在物理上是跟Datanode节点同一网段的,这样可以视作是同一个Rack,而因为代表用户的ClientMachine没有Rack信息,在NetworkTopology中会被视作与所有Datanode不同Rack,这显然是不合理的,通过阅读源码,发现DatanodeManager类中有对非Datanode的节点Rack信息的处理,所以,可以考虑把clientMachine引入NetworkTopology,但不归入Datanode,同样作为叶子节点参与路径长度weight的计算,这样就能够更加科学的对包含数据副本的Datanode进行排序,实现读速度优化的目标。这里就不贴源码献丑了。
  另外,还可以对通过修改net.topology.impl改变Hadoop使用的NetworkTopology工具类,自己设计构造网络拓扑结构的算法,实现对具体场景下HDFS文件读访问的优化。

以上内容引用部分均以文字说明或链接方式给出。
欢迎转载,转载请联系我并注明来源。


推荐阅读
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • 本教程详细介绍了如何使用 Spring Boot 创建一个简单的 Hello World 应用程序。适合初学者快速上手。 ... [详细]
  • 属性类 `Properties` 是 `Hashtable` 类的子类,用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入,支持字符串类型的键和值。通过 `Properties` 类,开发者可以方便地进行配置信息的管理,确保应用程序的灵活性和可维护性。此外,`Properties` 类还提供了加载和保存属性文件的方法,使其在实际开发中具有较高的实用价值。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
  • Spring – Bean Life Cycle
    Spring – Bean Life Cycle ... [详细]
  • com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 数据读取hadoopFileParameters:path–pathtoHadoopfileinputFormatClass–fullyqualifiedclassnameo ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 安装hadoop2.9.2jdk1.8centos7
    安装JDK1.8查看JDK1.8的安装https:www.cnblogs.comTJ21p13208514.html安装hadoop上传hadoop下载hadoop地址http:m ... [详细]
  • hadoop3.1.2 first programdefault wordcount (Mac)
    hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]
author-avatar
安徒生笔下苍老了谁1_120
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有