基于
Hadoop
的海量小文件合并的研究与设计
彭建烽,魏文国,郑东炜
【摘
要】
摘要:基于
Hadoop
海量小文件合并的策略研究,一方面为了减轻
NameNode
的元数据量,利用
Eclipse
开发工具实现了
Har
、
HBase
、
SequenceFile
三种主流合并方案对海量小文件的合并;另一方面分析这三种主
流合并方案在不同场景下性能以及应用方面的优劣,进而为海量小文件在
Hadoop
上的存储提供一些有价值的参考
.
【期刊名称】
广东技术师范学院学报
(
社会科学版
)
【年
(
卷
),
期】
2016(037)011
【总页数】
4
【关键词】
Hadoop
;
HDFS
;小文件;元数据;
Har
;
HBase
;
SequenceFile
1
引言
Hadoop
分布式数据存储和处理框架凭借其高效、可靠、高容错等优点,渐渐
成为了炙手可热的大数据存储和处理工具
.Hadoop
分布式文件系统(
HDFS
)
是
Hadoop
的核心部分,它所具有的两类节点以管理者
-
工作者的模式运行,
即单一
NameNode
(管理者)和若干个
DataNode
(工作者)
.NameNode
负责管理文件系统的命名空间,
DataNode
作为系统的工作节点,它们根据需
要存储并检索数据块
(
受客户端或
NameNode
调度
)
,并且定期向
NameNode
发送它们所存储的块列表[
1
]
.
但
HDFS
并不适合存储海量小文件,主要因为
NameNode
将文件系统的元数
据放在内存中,整个系统的文件数目受到
NameNode
内存大小的限制
.
根据经
验,每个文件、目录和数据块的存储信息大约占
150
字节
.
举例来说,如果有一