当前位置: 开发笔记 > 运维 > 正文

Hadoop自学笔记（三）MapReduce简介

作者：手机用户2602882697 | 来源：互联网 | 2018-06-05 21:13

1.MapReduceArchitectureMapReduce是一套可编程的框架，大部分MapReduce的工作都可以用Pig或者Hive完成，但是还是要了解MapReduce本身是如何工作的，因为这才是Hadoop的核心，并且可以为以后优化和自己写做准备。JobClient,就是用户JobTracker和Task

1. MapReduce Architecture MapReduce是一套可编程的框架，大部分MapReduce的工作都可以用Pig或者Hive完成，但是还是要了解MapReduce本身是如何工作的，因为这才是Hadoop的核心，并且可以为以后优化和自己写做准备。 Job Client, 就是用户 Job Tracker和Task

1. MapReduce Architecture

MapReduce是一套可编程的框架，大部分MapReduce的工作都可以用Pig或者Hive完成，但是还是要了解MapReduce本身是如何工作的，因为这才是Hadoop的核心，并且可以为以后优化和自己写做准备。

Job Client, 就是用户

Job Tracker和Task Tracker也是一种Master - Slave构建

工作流程（MapReduce Pipeline）

Job Client提交了MapReduce的程序（比如jar包中的二进制文件），所需要的数据，结果输出位置，提交给Job Tracker. Job Tracker会首先询问Name Node, 所需要的数据都在哪些block里面，然后就近选择一个Task Tracker(离这些所需数据最近的一个task tracker,可能是在同一个Node上或者同一个Rack上或者不同rack上)，把这个任务发送给该Task Tracker， Task Tracker来真正执行该任务。Task Tracker内部有Task Slots来真正执行这些任务。如果执行失败了，Task Tracker就好汇报给Job Tracker， Job Tracker就再分配给别的Task Tracker来执行。Task Tracker在执行过程中要不断的向Job Tracker汇报。最后Task Tracker执行完成后，汇报给Job Tracker，Job Tracker就更新任务状态为成功。

注意，当用户提交一个MapReduce任务的时候，不仅仅同时把任务提交给Job Tracker，同时还会拷贝一份到HDFS的一个公共位置（图中的咖啡位置），因为传递代码和命令相对要容易一些，然后Task Tracker就可以很方便的得到这些代码。

具体步骤就是图中的7步。

2. MapReduce Internals

Split阶段：根据Input Format，把输入数据分割成小部分，该阶段与Map任务同时运行，分割后就放到不同的Mapper里面。

Input Format: 决定了数据如何被分割放入Mapper。比如Log, 数据库，二进制码，等。

Map阶段：把分割后传入的splits转化成一些key-value对，如何转化取决于用户代码怎么写的。

Shuffle & Sort阶段：把Map阶段得到的数据归类，然后送给Reducers。

Reduce阶段：把送入的Map数据（Key, Value）按照用户的代码进行整合处理。

Output Format: Reduce阶段处理完后，结果按照此格式放入HDFS的输出目录。

Imperative Programming Paradigm: 把计算当做一系列改变程序状态的过程。也就是程序化编程。更加关注对象和状态。

Functional Programming Paradigm: 大致就是函数化编程，把一系列计算作为一个数学函数。Hadoop使用的是这种编程范式。有输入，有输出；没有对象没有状态。

为了优化起见，Hadoop还添加了更多的一个接口，combine阶段，见下图。主要是在输送到Shuffle/sort阶段前，现在本地进行一次小的Reduce计算。这样可以省很多带宽（还记得job的代码放入一个公共区域了吗）

上面的整个过程看上去可能不那么直观，但是这是Hadoop最难理解的部分了。理解了这个流程（Hadoop Pipeline），就更容易理解以后的内容了。

3. MapReduce Example

举例子来说明，在实际的机器操作中Hadoop如何完成上述任务。

在Windows环境下安装了一个hyperV软件，里面有四个Hadoop节点，每个Hadoop节点都是一个Ubuntu环境。

可以看到上面有一个Name Node,还有三个Data Node。

首先，连接上Name Node，并且打开一个Data Node节点。进入Name Node的Ubuntu系统中，打开一个终端，输入jps，可以看到jvm里面正在运行的东西。

在Data Node机器中运行同样命令，可以看到里面运行着DataNode, Jps, TaskTracker三个内容。

首先进入Data Node的机器里面，到根目录下面创建一个文件，叫words.txt，文件内容就是上图中要分析的一些词。

第二步，把这个Words.txt文件放入HDFS中。

首先

hadoop/bin/hadoop fs -ls

查看目前HDFS中的文件

然后新建一个文件夹

Hadoop/bin/hadoop fs -mkdir /data

我们可以使用浏览器来看看HDFS中的文件系统

浏览器中输入hnname:50070，打开Web UI

可以再Live Nodes里面看到刚刚新建的data文件夹，执行

hadoop/bin/hadoop fs -copyFromLocal words.txt /data

然后words.txt就拷贝到/data文件夹下了，可以使用Web UI来验证。

第三步，执行MapReduce 任务。这个任务是统计单词频率，这个任务已经由现成的jar包写好了，在hadoop/bin/目录下，hadoop-examples-1.2.0.jar. 这个文件里面有很多很多写好的MapReduce任务。

执行命令：

Hadoop/bin/hadoop jar hadoop/hadoop*examples.jar wordcount /data/words.txt /data/results

先指定jar包，再指定程序名wordcount, 再指定输入数据/data/words.txt 最后是输出目录/data/results，没有目录会创建一个。

执行完成后，可以通过Web UI来看执行结果。

我擦，原来的图片太多了发不了，不得不说删掉几张。。。。

推荐阅读

cron
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
容器
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
apache
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
apache
Hive中Map任务数量的确定方法

本文探讨了Hive作业中Map任务数量的确定方式，主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数，可以有效控制Map任务的数量，进而优化Hive作业的性能。 ... [详细]

蜡笔小新 2024-12-19 11:36:41
apache
全面解析Hive：数据仓库工具概览

本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念，包括其基本功能、使用理由、特点以及与Hadoop的关系。同时，文章还探讨了Hive相较于传统关系型数据库的不同之处，并展望了Hive的发展前景。 ... [详细]

蜡笔小新 2024-12-05 10:44:18
服务器
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
服务器
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
apache
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
server
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
容器
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
port
探索Hive UDF的应用

本文介绍了在解决Hive表中复杂数据结构平铺化问题后，如何通过创建视图来准确计算广告日志的曝光PV，特别是针对用户对应多个标签的情况。同时，详细探讨了UDF的使用方法及其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-26 11:08:12
cron
Python 实现监控与运维自动化方案

本文探讨了使用Python实现监控信息收集的方法，涵盖从基础的日志记录到复杂的系统运维解决方案，旨在帮助开发者和运维人员提升工作效率。 ... [详细]

蜡笔小新 2024-11-23 11:25:14
apache
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
负载均衡
深入解析：存储技术的演变与发展

本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程，详细解释了各种存储模型及其特点。 ... [详细]

蜡笔小新 2024-11-19 11:25:40
负载均衡
Hadoop 架构详解：核心组件解析

本文介绍了Hadoop的核心组件，包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]

蜡笔小新 2024-11-16 12:13:59

手机用户2602882697

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章