MapReduce+HDFS海量数据去重的策略有哪些

作者：892974506_bdb55d_896 | 来源：互联网 | 2023-07-26 11:29

这篇文章将为大家详细讲解有关MapReduce+HDFS海量数据去重的策略有哪些，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可

这篇文章将为大家详细讲解有关MapReduce+HDFS海量数据去重的策略有哪些，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。

随着存储数据信息量的飞速增长，越来越多的人开始关注存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。

重复数据删除往往是指消除冗余子文件。不同于压缩，重复数据删除对于数据本身并没有改变，只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。

举个简单的例子：在专门为电信运营商定制的呼叫详单去重应用程序中，我们就可以看到删除重复数据的影子。同样的，对于包含相同数据包的通信网络，我们可以使用这种技术来进行优化。

在存储架构中，删除重复数据的一些常用的方法包括：哈希、二进制比较和增量差分。在HadoopSphere这篇文章中，将专注于如何利用MapReduce和HDFS来消除重复的数据。(下面列出的方法中包括一些学者的实验方法，因此把术语定义为策略比较合适)。

策略1：只使用HDFS和MapReduce

Owen O’Malley在一个论坛的帖子中建议使用以下方法：

让你的历史数据按照MD5值进行排序。运行一个MapReduce的作业，将你的新数据按照MD5进行排序。需要注意的是：你要做所有数据的整体排序，但因为MD5是在整个密钥空间中是均匀分布的，排序就变得很容易。

基本上，你挑选一个reduce作业的数量(如256)，然后取MD5值的前N位数据来进行你的reduce作业。由于这项作业只处理你的新数据，这是非常快的。接下来你需要进行一个map-side join，每一个合并的输入分块都包含一个MD5值的范围。RecordReader读取历史的和新的数据集，并将它们按照一定方式合并。(你可以使用map-side join库)。你的map将新数据和旧数据合并。这里仅仅是一个map作业，所以这也非常快。

当然，如果新的数据足够小，你可以在每一个map作业中将其读入，并且保持新记录(在RAM中做了排序)在合适的数量范围内，这样就可以在RAM中执行合并。这可以让你避免为新数据进行排序的步骤。类似于这种合并的优化，正是Pig和Hive中对开发人员隐藏的大量细节部分。

策略2：使用HDFS和Hbase

在一篇名为“工程云系统中一种新颖的删除重复数据技术”的论文中，Zhe Sun, Jun Shen, Jianming Young共同提出了一种使用HDFS和Hbase的方法，内容如下：

使用MD5和SHA-1哈希函数计算文件的哈希值，然后将值传递给Hbase

将新的哈希值与现有的值域比较，如果新值已经存在于Hbase去重复表中，HDFS会检查链接的数量，如果数量不为零时，哈希值对应的计数器将增加1。如果数量是零或哈希值在之前的去重复表中不存在，HDFS会要求客户端上传文件并更新文件的逻辑路径。

HDFS将存储由用户上传的源文件，以及相应的链接文件，这些链接文件是自动生成的。链接文件中记录了源文件的哈希值和源文件的逻辑路径。

要注意使用这种方法中的一些关键点：

文件级的重复数据删除需要保持索引数量尽可能小，这样可以有高效的查找效率。

MD5和SHA-1需要结合使用从而避免偶发性的碰撞。

策略3：使用HDFS，MapReduce和存储控制器

MapReduce+HDFS海量数据去重的策略有哪些

由Netapp的工程师AshishKathpal、GauravMakkar以及Mathew John三人联合，在一篇名为“在后期处理重复数据删除的分布式重复检测方式”的文章中，提出通过使用HadoopMapReduce的重复检测机制来替代Netapp原有的重复检测环节，文中提到的基于重复检测的Hadoop工作流包含如下几个环节：

将数据指纹(Fingerprint)由存储控制器迁移到HDFS

生成数据指纹数据库，并在HDFS上***存储该数据库

使用MapReduce从数据指纹记录集中筛选出重复记录，并将去重复后的数据指纹表保存回存储控制器。

数据指纹是指存储系统中文件块经过计算后的哈希索引，通常来说数据指纹要比它代表的数据块体积小的多，这样就可以减少分布式检测时网络中的数据传输量。

策略4：使用Streaming，HDFS，MapReduce

对于Hadoop和Streaming的应用集成，基本上包含两种可能的场景。以IBM Infosphere Streams和BigInsights集成为例，场景应该是：

1. Streams到Hadoop的流程：通过控制流程，将Hadoop MapReduce模块作为数据流分析的一部分，对于Streams的操作需要对更新的数据进行检查并去重，并可以验证MapReduce模型的正确性。

众所周知，在数据摄入的时候对数据进行去重复是最有效的，因此在Infosphere Streams中对于某个特定时间段或者数量的记录会进行去重复，或者识别出记录的增量部分。接着，经过去重的数据将会发送给Hadoop BigInsights用于新模型的建立。

MapReduce+HDFS海量数据去重的策略有哪些

2. Hadoop到Streams的流程：在这种方式中，Hadoop MapReduce用于移除历史数据中的重复数据，之后MapReduce模型将会更新。MapReduce模型作为Streams中的一部分被集成，针对mid-stream配置一个操作符(operator)，从而对传入的数据进行处理。

策略5：结合块技术使用MapReduce

在莱比锡大学开发的一个原型工具Dedoop(Deduplication with Hadoop)中，MapReduce应用于大数据中的实体解析处理，到目前为止，这个工具囊括了MapReduce在重复数据删除技术中最为成熟的应用方式。

MapReduce+HDFS海量数据去重的策略有哪些

基于实体匹配的分块是指将输入数据按照类似的数据进行语义分块，并且对于相同块的实体进行限定。

实体解析处理分成两个MapReduce作业：分析作业主要用于统计记录出现频率，匹配作业用于处理负载均衡以及近似度计算。另外，匹配作业采用“贪婪模式”的负载均衡调控，也就是说匹配任务按照任务处理数据大小的降序排列，并做出最小负载的Reduce作业分配。

Dedoop还采用了有效的技术来避免多余的配对比较。它要求MR程序必须明确定义出哪个Reduce任务在处理哪个配对比较，这样就无需在多个节点上进行相同的配对比较。

关于“MapReduce+HDFS海量数据去重的策略有哪些”这篇文章就分享到这里了，希望以上内容可以对大家有一定的帮助，使各位可以学到更多知识，如果觉得文章不错，请把它分享出去让更多的人看到。

推荐阅读

join
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ip
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
default
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
include
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
sum
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
header
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
ip
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
audio
如何将TS文件转换为M3U8直播流：HLS与M3U8格式详解

在视频传输领域，MP4虽然常见，但在直播场景中直接使用MP4格式存在诸多问题。例如，MP4文件的头部信息（如ftyp、moov）较大，导致初始加载时间较长，影响用户体验。相比之下，HLS（HTTP Live Streaming）协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段，并生成一个M3U8播放列表文件，实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流，包括技术原理和具体操作步骤，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 12:12:04
java
2021年Java开发实战：当前时间戳转换方法详解与实用网址推荐

在当前的就业市场中，金九银十过后，金三银四也即将到来。本文将分享一些实用的面试技巧和题目，特别是针对正在寻找新工作机会的Java开发者。作者在准备字节跳动的面试过程中积累了丰富的经验，并成功获得了Offer。文中详细介绍了如何将当前时间戳进行转换的方法，并推荐了一些实用的在线资源，帮助读者更好地应对技术面试。 ... [详细]

蜡笔小新 2024-11-08 22:43:32
function
Linux 环境下多线程编程实战案例分析

在 Linux 环境下，多线程编程是实现高效并发处理的重要技术。本文通过具体的实战案例，详细分析了多线程编程的关键技术和常见问题。文章首先介绍了多线程的基本概念和创建方法，然后通过实例代码展示了如何使用 pthreads 库进行线程同步和通信。此外，还探讨了多线程程序中的性能优化技巧和调试方法，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-08 13:02:21
default
JavaWeb项目架构中的NFS文件服务器实现与优化

在JavaWeb项目架构中，NFS（网络文件系统）的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录，提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用，包括配置、性能优化及常见问题的解决方案，旨在为开发者提供实用的技术参考。 ... [详细]

蜡笔小新 2024-11-06 15:58:12
ip
如何安全地手动移除Exchange Server 2003以确保系统稳定性和数据完整性

本文详细介绍了如何安全地手动卸载Exchange Server 2003，以确保系统的稳定性和数据的完整性。根据微软官方支持文档（https://support.microsoft.com/kb833396/zh-cn），在进行卸载操作前，需要特别注意备份重要数据，并遵循一系列严格的步骤，以避免对现有网络环境造成不利影响。此外，文章还提供了详细的故障排除指南，帮助管理员在遇到问题时能够迅速解决，确保整个卸载过程顺利进行。 ... [详细]

蜡笔小新 2024-11-06 08:13:47
ip
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
sum
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
sum
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41

892974506_bdb55d_896

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章