当前位置: 开发笔记 > 编程语言 > 正文

hadoop文本文件分析时如何处理跨行的数据

作者：Toby_魚5902 | 来源：互联网 | 2023-10-12 20:25

网上举的例子多是一行就是一个分析单位，如果两行或多行才表示一个分析单位呢，如第一行是姓名第二行是学期第三行是成绩每三行才是一个有意义的分析单位hadoop是如何分割的文本文

网上举的例子多是一行就是一个分析单位，如果两行或多行才表示一个分析单位呢，如
第一行是姓名
第二行是学期
第三行是成绩

每三行才是一个有意义的分析单位

hadoop是如何分割的文本文件，有类似的例子的，请介绍下

6 个解决方案

#1

请参考NLineInputFormat类该类可以设定N行为一个分片

#2

好的。我试下，谢谢

#3

学习了

#4

该回复于2014-02-23 20:22:57被版主删除

#5

hadoop分割文本的代码得自己写，怎么分都可以，一般是用MapReduce缺省的处理程序，也就是去头补尾方式，按字节拆分后，从拆分点读到回车符才算正式开始这一段，读到结束点后再继续读到下一个回车符才算正式结束当前段。这样可以保证每一段都是整行数据构成。除了Hadoop外，集算器的拆分方案也一样，直接分段并行处理文本文件。

如果只是按行数来决定记录单位而没有其它分割符，没什么好办法。要数出当前行数必须从头遍历，这会使分段并行失去意义，完全达不到期望的高性能。需要事先将数据做些处理，三行变一行，或者加入记录分隔符。

#6

楼上u012解释是比较准确的，昨天看到这个解释还不太懂，今天仔细想后，确实，如果仅仅按行数在确定记录单位。在文件分块后，除了第一个块能够确定，其他块根本无法知道某一行该是那条记录的第几行，也就根本无法并行。而对于NLineReader，我看到书上的解释是，那样会造成split的尺寸过小，从而导致map数量过多，也会导致大量的非本地运算，对于效率而言是不利的。
综上，就是只能对文件进行预处理，三行变一行，那这样就比较简单转变为单行读取，套用自带的输入格式即可解决，否则就是处理，重新加入其它分隔符，重写分割代码，这里就需要自己按字节来判断得到正确的分隔符的起始结束位置了。因为split是会跨block的，暂时重写这一点我也不会，还没有理解的特别清楚。

推荐阅读

text
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
client
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
client
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
case
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
search
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
copy
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
js
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
text
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
js
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
js
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
case
UNP 第9章：主机名与地址转换

本章探讨了用于在主机名和数值地址之间进行转换的函数，如gethostbyname和gethostbyaddr。此外，还介绍了getservbyname和getservbyport函数，用于在服务器名和端口号之间进行转换。 ... [详细]

蜡笔小新 2024-12-27 11:26:39
email
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40
config
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
js
Python学习笔记：使用pydoc工具查询文档

本文介绍了在Windows环境下使用pydoc工具的方法，并详细解释了如何通过命令行和浏览器查看Python内置函数的文档。此外，还提供了关于raw_input和open函数的具体用法和功能说明。 ... [详细]

蜡笔小新 2024-12-26 17:05:56
config
Linux 透明防火墙（网桥模式）的部署与配置

本文介绍如何在现有网络中部署基于Linux系统的透明防火墙（网桥模式），以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明，确保内部网络的安全性和稳定性。 ... [详细]

蜡笔小新 2024-12-25 13:17:38

Toby_魚5902

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章