热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop文本文件分析时如何处理跨行的数据

网上举的例子多是一行就是一个分析单位,如果两行或多行才表示一个分析单位呢,如第一行是姓名第二行是学期第三行是成绩每三行才是一个有意义的分析单位hadoop是如何分割的文本文
网上举的例子多是一行就是一个分析单位,如果两行或多行才表示一个分析单位呢,如
第一行是姓名
第二行是学期
第三行是成绩

每三行才是一个有意义的分析单位

hadoop是如何分割的文本文件,有类似的例子的,请介绍下

6 个解决方案

#1


请参考NLineInputFormat类    该类可以设定N行为一个分片

#2


好的。我试下,谢谢

#3


学习了

#4


该回复于2014-02-23 20:22:57被版主删除

#5


hadoop分割文本的代码得自己写,怎么分都可以,一般是用MapReduce缺省的处理程序,也就是去头补尾方式,按字节拆分后,从拆分点读到回车符才算正式开始这一段,读到结束点后再继续读到下一个回车符才算正式结束当前段。这样可以保证每一段都是整行数据构成。除了Hadoop外,集算器的拆分方案也一样,直接分段并行处理文本文件。

如果只是按行数来决定记录单位而没有其它分割符,没什么好办法。要数出当前行数必须从头遍历,这会使分段并行失去意义,完全达不到期望的高性能。需要事先将数据做些处理,三行变一行,或者加入记录分隔符。

#6


楼上u012解释是比较准确的,昨天看到这个解释还不太懂,今天仔细想后,确实,如果仅仅按行数在确定记录单位。在文件分块后,除了第一个块能够确定,其他块根本无法知道某一行该是那条记录的第几行,也就根本无法并行。而对于NLineReader,我看到书上的解释是,那样会造成split的尺寸过小,从而导致map数量过多,也会导致大量的非本地运算,对于效率而言是不利的。
综上,就是只能对文件进行预处理,三行变一行,那这样就比较简单转变为单行读取,套用自带的输入格式即可解决,否则就是处理,重新加入其它分隔符,重写分割代码,这里就需要自己按字节来判断得到正确的分隔符的起始结束位置了。因为split是会跨block的,暂时重写这一点我也不会,还没有理解的特别清楚。

推荐阅读
  • 本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射,详细解释了两者的创建、加载及删除操作,并提供了查看表详细信息的方法。通过对比这两种表类型,帮助读者理解如何更好地管理和保护数据。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • HBase运维工具全解析
    本文深入探讨了HBase常用的运维工具,详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说,这些工具是日常管理和故障排查的重要手段。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤,帮助开发者快速掌握这一实用技巧。 ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • 毕业设计:基于机器学习与深度学习的垃圾邮件(短信)分类算法实现
    本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程,并提供了具体的代码示例和实验结果。 ... [详细]
  • 深入理解Tornado模板系统
    本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块,支持嵌入Python代码片段,帮助开发者快速构建动态网页。 ... [详细]
  • UNP 第9章:主机名与地址转换
    本章探讨了用于在主机名和数值地址之间进行转换的函数,如gethostbyname和gethostbyaddr。此外,还介绍了getservbyname和getservbyport函数,用于在服务器名和端口号之间进行转换。 ... [详细]
  • 如何高效创建和使用字体图标
    在Web和移动开发中,为什么选择字体图标?主要原因是其卓越的性能,可以显著减少HTTP请求并优化页面加载速度。本文详细介绍了从设计到应用的字体图标制作流程,并提供了专业建议。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • 本题探讨如何通过最大流算法解决农场排水系统的设计问题。题目要求计算从水源点到汇合点的最大水流速率,使用经典的EK(Edmonds-Karp)和Dinic算法进行求解。 ... [详细]
  • 本文介绍如何在现有网络中部署基于Linux系统的透明防火墙(网桥模式),以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明,确保内部网络的安全性和稳定性。 ... [详细]
  • 优化局域网SSH连接延迟问题的解决方案
    本文介绍了解决局域网内SSH连接到服务器时出现长时间等待问题的方法。通过调整配置和优化网络设置,可以显著缩短SSH连接的时间。 ... [详细]
author-avatar
Toby_魚5902
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有