[大牛翻译系列]Hadoop（6）MapReduce排序：总排序（Totalordersorting）

作者：勋酥-osh海州吴氏 | 来源：互联网 | 2023-09-10 17:12

来自于某本大牛英文专著。翻译稿。讲解在Hadoop中的排序操作。

4.2.2 总排序（Total order
sorting）

有的时候需要将作业的的所有输出进行总排序，使各个输出之间的结果是有序的。有以下实例：

如果要得到某个网站中最受欢迎的网址（URL），就需要根据某种受欢迎的指标来对网址进行排序。

如果要让最活跃的用户能够看到某张表，就需要根据某种标准（发表文章数）对用户进行排序。

技术22
在多个reduce间对键进行排序

在MapReduce框架中，map的输出会被排序，然后被发送给reduce。不过，相同reduce的输入数据是有序的，不同reduce的输入数据就没有顺序关系了。如果要让不同的reduce的数据也存在顺序关系，就需要使用分区器（partitioner）。MapReduce的默认分区器是HashPartitioner。它使用map的输出键的哈希值进行分区。这保证了相同的map输出键的所有记录会到达同一个reduce。不过HashPartitioner并不会对所有map的全部输出键进行总排序。接下来说明如何在MapReduce中对所有map的全部输出键进行排序：

问题

需要对作业输出的所有键进行总排序，但是不能增加任何一个reduce的负担。

方案

这里要用到TotalOrderPartitioner类来保证所有reduce的全部输出是有序的。这个类由Hadoop自带。这个分类器保证了所有map的全部输出是完全有序的。那么只要reduce的输出键和输入键是一样的，作业的最终输出就是有序的。

讨论

TotalOrderPartitioner是Hadoop的内置分区器。它根据分区文件进行分区。分区文件是一个包括N-1个键的预先计算好的序列文件。（N是指reduce的个数。）分区文件中的键的顺序是由map输出键比较器决定的。每一个键对应着一个逻辑区间。TotalOrderPartitioner检查每一个输出键，确定它在那个区间，然后将这个键发送给相对应的reduce。

图4.15中说明了这个技术的两个部分。第一部分，创建分区文件。第二部分，将TotalOrderPartitioner加入MapReduce作业。

bubuko.com,布布扣 >

先用InputSampler从输入文件中抽样，以生成分区文件。抽样器可以选用RandomSampler类进行随机抽样，也可以选用IntervalSampler类进行间距为R的等距抽样。生成的分区文件中将包含有序的N-1个键。N是reduce的个数。InputSampler不是MapReduce作业。它从InputFormat读取数据。它在被调用的过程中生成分区。

下列代码说明了在调用InputSampler函数之前需要完成的步骤：

1 int numReducers = 2;
2
3 Path input = new Path(args[0]);
4
5 Path partitiOnFile= new Path(args[1]);
6
7 InputSampler.Sampler sampler = new InputSampler.RandomSampler(0.1, 10000, 10);
8
9 JobConf job = new JobConf();
10
11 job.setNumReduceTasks(numReducers);
12
13 job.setInputFormat(KeyValueTextInputFormat.class);
14
15 job.setMapOutputKeyClass(Text.class);
16
17 job.setMapOutputValueClass(Text.class);
18
19 TotalOrderPartitioner.setPartitionFile(job, partitionFile);
20
21 FileInputFormat.setInputPaths(job, input);
22
23 InputSampler.writePartitionFile(job, sampler);

下一步在作业中指定TotalOrderPartitioner为分区器：

1 job.setPartitionerClass(TotalOrderPartitioner.class);

这个技术并不需要修改MapReduce作业本身，也就是说，不需要修改map或reduce过程。现在就可以开始运行代码了：

$ hadoop fs -put test-data/names.txt names.txt
$ bin/run.sh com.manning.hip.ch4.sort.total.TotalSortMapReduce \
names.txt \
large-names-sampled.txt \
output$ hadoop fs -ls output
/user/aholmes/output/part-00000
/user/aholmes/output/part-00001
$ hadoop fs -cat output/part-00000 | head
AABERG
AABY
AADLAND
$ hadoop fs -cat output/part-00000 | tail
LANCZ
LAND
LANDA
$ hadoop fs -cat output/part-00001 | head
LANDACRE
LANDAKER
LANDAN
$ hadoop fs -cat output/part-00001 | tail
ZYSK
ZYSKOWSKI
ZYWIEC

从MapReduce作业的结果中可以看到，在各个输出文件之间，map的输出键是有序的。

小结

这个技术中使用InputSampler来创建分区文件。TotalOrderPartitioner使用这个分区文件来分区map的输出键。

MapReduce也可以生成分区文件，但效率不高。另一个有效的的方法就是用自定义的InputFormat类来执行抽样，并将抽样后的键发送给一个reduce，由其创建分区文件。这也就是这一章下一个部分讲到的抽样。

[大牛翻译系列]Hadoop（6）MapReduce 排序：总排序（Total order sorting）,布布扣,bubuko.com

推荐阅读

io
C++ 中的 malloc 函数详解

malloc 是 C 语言中的一个标准库函数，全称为 memory allocation，即动态内存分配。它用于在程序运行时申请一块指定大小的连续内存区域，并返回该区域的起始地址。当无法预先确定内存的具体位置时，可以通过 malloc 动态分配内存。 ... [详细]

蜡笔小新 2024-11-14 13:38:03
ip
SoundPool

如果应用程序经常播放密集、急促而又短暂的音效（如游戏音效）那么使用MediaPlayer显得有些不太适合了。因为MediaPlayer存在如下缺点：1)延时时间较长，且资源占用率高 ... [详细]

蜡笔小新 2024-11-13 16:47:19
ip
[c++基础]STL

cppfig15_10.cppincludeincludeusingnamespacestd;templatevoidprintVector(constvector&integer ... [详细]

蜡笔小新 2024-11-13 13:22:43
go
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
bash
CentOS 7 中 iptables 过滤表实例与 NAT 表应用详解

在 CentOS 7 系统中，iptables 的过滤表和 NAT 表具有重要的应用价值。本文通过具体实例详细介绍了如何配置 iptables 的过滤表，包括编写脚本文件 `/usr/local/sbin/iptables.sh`，并使用 `iptables -F` 清空现有规则。此外，还深入探讨了 NAT 表的配置方法，帮助读者更好地理解和应用这些网络防火墙技术。 ... [详细]

蜡笔小新 2024-11-11 18:33:22
go
2018 HDU 多校联合第五场 G题：Glad You Game（线段树优化解法）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=6356在《Glad You Game》中，Steve 面临一个复杂的区间操作问题。该题可以通过线段树进行高效优化。具体来说，线段树能够快速处理区间更新和查询操作，从而大大提高了算法的效率。本文详细介绍了线段树的构建和维护方法，并给出了具体的代码实现，帮助读者更好地理解和应用这一数据结构。 ... [详细]

蜡笔小新 2024-11-08 19:17:23
join
Python网络编程中的多线程应用与优化

在Python网络编程中，多线程技术的应用与优化是提升系统性能的关键。线程作为操作系统调度的基本单位，其主要功能是在进程内共享内存空间和资源，实现并行处理任务。当一个进程启动时，操作系统会为其分配内存空间，加载必要的资源和数据，并调度CPU进行执行。每个进程都拥有独立的地址空间，而线程则在此基础上进一步细化了任务的并行处理能力。通过合理设计和优化多线程程序，可以显著提高网络应用的响应速度和处理效率。 ... [详细]

蜡笔小新 2024-11-04 19:37:38
io
如何查看PHP网站及其源码

本文介绍了如何查看PHP网站及其源码的方法，包括环境搭建、本地测试、源码查看和在线查找等步骤。 ... [详细]

蜡笔小新 2024-11-14 21:51:01
io
解决Unreal Engine中UMG按钮长时间按住自动释放的问题

本文探讨了在Unreal Engine中使用UMG按钮时，长时间按住按钮会导致自动释放的问题，并提供了详细的解决方案。 ... [详细]

蜡笔小新 2024-11-14 20:40:39
version
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
io
ASP.NET 中操作 Excel 的常见方法和属性

本文介绍了如何在 ASP.NET 中设置 Excel 单元格格式为文本，获取多个单元格区域并作为表头，以及进行单元格合并、赋值、格式设置等操作。 ... [详细]

蜡笔小新 2024-11-13 19:46:18
version
深入解析Android Audio系统中的mpAudioPolicy->get_input

在分析Android的Audio系统时，我们对mpAudioPolicy->get_input进行了详细探讨，发现其背后涉及的机制相当复杂。本文将详细介绍这一过程及其背后的实现细节。 ... [详细]

蜡笔小新 2024-11-12 18:52:04
go
c/c++常用代码doc,ppt,xls文件格式转PDF格式[转]

[转]doc,ppt,xls文件格式转PDF格式http:blog.csdn.netlee353086articledetails7920355确实好用。需要注意的是#import ... [详细]

蜡笔小新 2024-11-12 16:19:40
version
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
go
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44

勋酥-osh海州吴氏

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

[大牛翻译系列]Hadoop（6）MapReduce排序：总排序（Totalordersorting）

4.2.2 总排序（Total order sorting）

4.2.2 总排序（Total order
sorting）