热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop文本文件分析时如何处理跨行的数据

网上举的例子多是一行就是一个分析单位,如果两行或多行才表示一个分析单位呢,如第一行是姓名第二行是学期第三行是成绩每三行才是一个有意义的分析单位hadoop是如何分割的文本文
网上举的例子多是一行就是一个分析单位,如果两行或多行才表示一个分析单位呢,如
第一行是姓名
第二行是学期
第三行是成绩

每三行才是一个有意义的分析单位

hadoop是如何分割的文本文件,有类似的例子的,请介绍下

6 个解决方案

#1


请参考NLineInputFormat类    该类可以设定N行为一个分片

#2


好的。我试下,谢谢

#3


学习了

#4


该回复于2014-02-23 20:22:57被版主删除

#5


hadoop分割文本的代码得自己写,怎么分都可以,一般是用MapReduce缺省的处理程序,也就是去头补尾方式,按字节拆分后,从拆分点读到回车符才算正式开始这一段,读到结束点后再继续读到下一个回车符才算正式结束当前段。这样可以保证每一段都是整行数据构成。除了Hadoop外,集算器的拆分方案也一样,直接分段并行处理文本文件。

如果只是按行数来决定记录单位而没有其它分割符,没什么好办法。要数出当前行数必须从头遍历,这会使分段并行失去意义,完全达不到期望的高性能。需要事先将数据做些处理,三行变一行,或者加入记录分隔符。

#6


楼上u012解释是比较准确的,昨天看到这个解释还不太懂,今天仔细想后,确实,如果仅仅按行数在确定记录单位。在文件分块后,除了第一个块能够确定,其他块根本无法知道某一行该是那条记录的第几行,也就根本无法并行。而对于NLineReader,我看到书上的解释是,那样会造成split的尺寸过小,从而导致map数量过多,也会导致大量的非本地运算,对于效率而言是不利的。
综上,就是只能对文件进行预处理,三行变一行,那这样就比较简单转变为单行读取,套用自带的输入格式即可解决,否则就是处理,重新加入其它分隔符,重写分割代码,这里就需要自己按字节来判断得到正确的分隔符的起始结束位置了。因为split是会跨block的,暂时重写这一点我也不会,还没有理解的特别清楚。

推荐阅读
author-avatar
Toby_魚5902
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有