作者:陈杰倩平贵奕白 | 来源:互联网 | 2023-08-21 11:26
Hadoop:Hadoop是Apache的一个开源框架,用于存储和处理分布在服务器集群中的大型数据集。Hadoop的四个主要组件是Hadoop分布式文件系统(HDFS)、Yarn、
Hadoop: Hadoop 是 Apache 的一个开源框架,用于存储和处理分布在服务器集群中的大型数据集。Hadoop 的四个主要组件是 Hadoop 分布式文件系统 (HDFS)、Yarn、MapReduce 和库。它不仅涉及大数据,还涉及结构化、半结构化和非结构化信息的混合。亚马逊、IBM、微软、Cloudera、ScienceSoft、Pivotal、Hortonworks 是一些使用 Hadoop 技术的公司。
HBase: HBase 是 Apache 的一个开源数据库,运行在 Hadoop 集群上。它属于非关系数据库管理系统。HBase 的三个重要组件是 HMaster、Region server、Zookeeper。CapitalOne、摩根大通、苹果、MTB、AT&T、洛克希德马丁是一些使用 HBase 的公司。
下表列出了 Hadoop 和 HBase 之间的差异:
编号
Hadoop
HBase
1
Hadoop 是软件工具的集合
HBase 是 hadoop 生态系统的一部分
2
在分布式环境中存储数据集
以列的方式存储数据
3
Hadoop 是一个框架
HBase 是一个 NOSQL 数据库
4
数据以块的形式存储
数据以键/值对的形式存储
5
Hadoop 不允许运行时更改
HBase 允许运行时更改
6
文件只能写入一次,可多次读取
文件可多次读写
7
Hadoop 具有低延迟操作
HBase 具有高延迟操作
8
HDFS可通过MapReduce访问
HBase可通过shell命令、Java API、REST访问