Hadoopnbsp;pipes设计原理

作者：_A-lan | 来源：互联网 | 2023-07-31 11:28

1.什么是Hadooppipes？Hadooppipes允许用户使用C语言进行MapReduce程序设计。它采用的主要方法是将应用逻辑相关的C代码放在单独的进程中&#

1. 什么是Hadoop pipes&＃xff1f;

Hadoop pipes允许用户使用C&＃43;&＃43;语言进行MapReduce程序设计。它采用的主要方法是将应用逻辑相关的C&＃43;&＃43;代码放在单独的进程中&＃xff0c;然后通过Socket让Java代码与C&＃43;&＃43;代码通信。从很大程度上说&＃xff0c;这种方法类似于Hadoop Streaming&＃xff0c;不同的是&＃xff0c;它采用Writable序列化方法将数据转化为byte&＃xff0c;然后通过socket传给C&＃43;&＃43;进程。

org.apache.hadoop.mapred.pipes.Submitter包中有一个public static方法用于提交作业,该方法将作业封装成一个JobConf对象和一个main方法&＃xff08;接收一个应用程序&＃xff0c;可选的配置文件&＃xff0c;输入目录和输出目录等&＃xff09;&＃xff0c;main方法的CLI(Client Line Interface)如下&＃xff1a;

bin/hadoop pipes \

[-input inputDir] \ #输入数据目录

[-output outputDir] \ #输出数据目录

[-jar applicationJarFile] \ #应用程序jar包

[-inputformat class] \ #Java版的InputFormat

[-map class] \ #Java版的Mapper

[-partitioner class] \#Java版的Partitioner

[-reduce class] \#Java版的Reducer

[-writer class] \ #Java版的 RecordWriter

[-program program url] \ #C&＃43;&＃43;可执行程序

[-conf configuration file] \#xml配置文件

[-D property&＃61;value] \ #配置JobConf属性

[-fs local|namenode:port] \#配置namenode

[-jt local|jobtracker:port] \#配置jobtracker

[-files comma separated list of files] \ #已经上传文件到HDFS中的文件&＃xff0c;它们可以像在本地一样打开

[-libjars comma separated list of jars] \#要添加到classpath 中的jar包

[-archives comma separated list of archives]#已经上传到HDFS中的jar文件&＃xff0c;可以在程序中直接使用

本文主要介绍了Hadoop pipes的设计原理&＃xff0c;包括设计架构&＃xff0c;设计细节等。

2. Hadoop pipes设计架构

用户通过bin/hadoop pipes将作业提交到org.apache.hadoop.mapred.pipes中的Submmit类&＃xff0c;它首先会进行作业参数配置&＃xff08;调用函数setupPipesJob&＃xff09;&＃xff0c;然后通过JobClient(conf).submitJob(conf)将作业提交到Hadoop集群中。

在函数setupPipesJob中&＃xff0c;Java代码会使用ServerScoket创建服务器对象&＃xff0c;然后通过ProcessBuilder执行C&＃43;&＃43;binary&＃xff0c; C&＃43;&＃43;binary实际上是一个Socket client&＃xff0c;它从Java server中接收key/value数据&＃xff0c;经过处理&＃xff08;map&＃xff0c;partition或者reduce等&＃xff09;后&＃xff0c;返还给Java server&＃xff0c;并由Java Server将数据写到HDFS或者磁盘。

3. Hadoop pipes设计细节

Hadoop pipes允许用户用C&＃43;&＃43;编写五个基本组件&＃xff1a;mapper&＃xff0c;reducer&＃xff0c;partitioner&＃xff0c;combiner&＃xff0c;recordReader&＃xff0c;这五个组件可以是Java编写的&＃xff0c;也可以是C&＃43;&＃43;编写的&＃xff0c;下面分别介绍这几个函数的执行过程。

&＃xff08;1&＃xff09; mapper

Pipes会根据用户的配置定制InputFormat&＃xff0c;如果用户要使用Java的InputFormat&＃xff08;hadoop.pipes.java.recordreader&＃61;true&＃xff09;&＃xff0c;则Hadoop会使用户输入的InputFormat&＃xff08;默认为TextInputFormat&＃xff09;&＃xff1b;如果用户使用C&＃43;&＃43;的InputFormat&＃xff0c;则Pipes Java端的代码会读取每个InputSplit&＃xff0c;并调用downlink.runMap(reporter.getInputSplit(), job.getNumReduceTasks(), isJavaInput);通过socket传输给C&＃43;&＃43;端的runMap(string _inputSplit, int _numReduces, bool pipedInput)函数。

在C&＃43;&＃43;端&＃xff0c;RecordReader会解析整个InputSplit&＃xff0c;获取数据来源&＃xff08;主要是文件路径&＃xff09;和每个key/value对&＃xff0c;并交给map函数处理&＃xff0c;map将每个key/value的处理结果通过emit(const string& key, const string& value)函数返还给Java Server。

&＃xff08;2&＃xff09; paritioner

C&＃43;&＃43;端处理完的结果会通过emit(const string& key, const string& value)函数传给Java Server&＃xff0c;以便将数据写到磁盘上。在emit函数中&＃xff0c;如果用户定义了自己的paritioner&＃xff0c;则Pipes会通过该函数判断当前key/value将给哪个reduce task处理&＃xff0c;并调用partitionedOutput(int reduce, const string& key,const string& value)函数将key/value传递给相应的reduce task。

&＃xff08;3&＃xff09; reducer

reducer的执行过程与mapper基本一致。

4. 总结

Hadoop pipes给C&＃43;&＃43;程序员提供了一个编写MapReduce作业的方案&＃xff0c;它使用socket让Java和C&＃43;&＃43;之间进行通信&＃xff0c;这类似于thrift RPC的原理&＃xff0c;也许Hadoop Pipes用thrift编写会更加简单。

Hadoop pipes使用Java代码从HDFS上读写数据&＃xff0c;并将处理逻辑封装到C&＃43;&＃43;中&＃xff0c;数据会通过socket从Java传输给C&＃43;&＃43;&＃xff0c;这虽然增加了数据传输的代价&＃xff0c;但对于计算密集型的作业&＃xff0c;其性能也许会有改进。

5. 参考资料

http://wiki.apache.org/hadoop/HowToDebugMapReducePrograms

http://cs.smith.edu/dftwiki/index.php/Hadoop_Tutorial_2.2_–_Running_C&＃43;&＃43;_Programs_on_Hadoop

http://www.itberry.com/?p&＃61;42

原创文章&＃xff0c;转载请注明&＃xff1a; 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce/hadoop-pipes-architecture/

推荐阅读

format
深入解析Properties属性类及其应用

属性类 `Properties` 是 `Hashtable` 类的子类，用于存储键值对形式的数据。该类在 Java 中广泛应用于配置文件的读取与写入，支持字符串类型的键和值。通过 `Properties` 类，开发者可以方便地进行配置信息的管理，确保应用程序的灵活性和可维护性。此外，`Properties` 类还提供了加载和保存属性文件的方法，使其在实际开发中具有较高的实用价值。 ... [详细]

蜡笔小新 2024-11-11 13:55:43
io
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
io
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
io
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47
io
基于CXF框架的Web服务开发详细示例

在Java Web服务开发中，Apache CXF 和 Axis2 是两个广泛使用的框架。CXF 由于其与 Spring 框架的无缝集成能力，以及更简便的部署方式，成为了许多开发者的首选。本文将详细介绍如何使用 CXF 框架进行 Web 服务的开发，包括环境搭建、服务发布和客户端调用等关键步骤，为开发者提供一个全面的实践指南。 ... [详细]

蜡笔小新 2024-11-08 18:43:17
tree
使用ObjectMapper实现JSON与JavaBean的高效转换

本文介绍了如何利用ObjectMapper实现JSON与JavaBean之间的高效转换。ObjectMapper是Jackson库的核心组件，能够便捷地将Java对象序列化为JSON格式，并支持从JSON、XML以及文件等多种数据源反序列化为Java对象。此外，还探讨了在实际应用中如何优化转换性能，以提升系统整体效率。 ... [详细]

蜡笔小新 2024-11-08 13:21:48
io
Java中不同类型的常量池（字符串常量池、Class常量池和运行时常量池）的对比与关联分析

在研究Java虚拟机的过程中，笔者发现存在多种类型的常量池，包括字符串常量池、Class常量池和运行时常量池。通过查阅CSDN、博客园等相关资料，对这些常量池的特性、用途及其相互关系进行了详细探讨。本文将深入分析这三种常量池的差异与联系，帮助读者更好地理解Java虚拟机的内部机制。 ... [详细]

蜡笔小新 2024-11-08 10:38:37
io
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
io
Java 类加载器的父子委托机制详解

本文详细解析了Java类加载系统的父子委托机制。在Java程序中，.java源代码文件编译后会生成对应的.class字节码文件，这些字节码文件需要通过类加载器（ClassLoader）进行加载。ClassLoader采用双亲委派模型，确保类的加载过程既高效又安全，避免了类的重复加载和潜在的安全风险。该机制在Java虚拟机中扮演着至关重要的角色，确保了类加载的一致性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 11:29:50
io
使用 QT 实现 YUV420 图像渲染技术

在使用 Qt 进行 YUV420 图像渲染时，由于 Qt 本身不支持直接绘制 YUV 数据，因此需要借助 QOpenGLWidget 和 OpenGL 技术来实现。通过继承 QOpenGLWidget 类并重写其绘图方法，可以利用 GPU 的高效渲染能力，实现高质量的 YUV420 图像显示。此外，这种方法还能显著提高图像处理的性能和流畅性。 ... [详细]

蜡笔小新 2024-11-09 15:02:41
format
FFMpeg学习进阶：音频处理基础理论与重采样技术详解

在Android平台中，播放音频的采样率通常固定为44.1kHz，而录音的采样率则固定为8kHz。为了确保音频设备的正常工作，底层驱动必须预先设定这些固定的采样率。当上层应用提供的采样率与这些预设值不匹配时，需要通过重采样（resample）技术来调整采样率，以保证音频数据的正确处理和传输。本文将详细探讨FFMpeg在音频处理中的基础理论及重采样技术的应用。 ... [详细]

蜡笔小新 2024-11-09 13:46:55
io
Linux网络配置详解：Firewalld与Netfilter机制解析及iptables应用

在Linux系统中，网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制，并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址（需要安装`iproute`包），当网卡未分配IP地址或处于关闭状态时，可以通过`ip link set`命令进行配置和激活。此外，文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理，为系统管理员提供了实用的操作指南。 ... [详细]

蜡笔小新 2024-11-09 12:37:55
io
求助：如何使用Pull方法解析标签内容，悬赏50分求完美解决方案

在处理 XML 数据时，如果需要解析 `` 标签的内容，可以采用 Pull 解析方法。Pull 解析是一种高效的 XML 解析方式，适用于流式数据处理。具体实现中，可以通过 Java 的 `XmlPullParser` 或其他类似的库来逐步读取和解析 XML 文档中的 `` 元素。这样不仅能够提高解析效率，还能减少内存占用。本文将详细介绍如何使用 Pull 解析方法来提取 `` 标签的内容，并提供一个示例代码，帮助开发者快速解决问题。 ... [详细]

蜡笔小新 2024-11-09 11:50:14
io
Maven进阶指南：高效管理项目外部依赖库

本文深入探讨了如何利用Maven高效管理项目中的外部依赖库。通过介绍Maven的官方依赖搜索地址（），详细讲解了依赖库的添加、版本管理和冲突解决等关键操作。此外，还提供了实用的配置示例和最佳实践，帮助开发者优化项目构建流程，提高开发效率。 ... [详细]

蜡笔小新 2024-11-09 11:17:43
io
如何在Java中获取当前操作系统的进程列表及其详细信息

本文探讨了如何利用Java代码获取当前本地操作系统中正在运行的进程列表及其详细信息。通过引入必要的包和类，开发者可以轻松地实现这一功能，为系统监控和管理提供有力支持。示例代码展示了具体实现方法，适用于需要了解系统进程状态的开发人员。 ... [详细]

蜡笔小新 2024-11-09 10:45:26

_A-lan

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章