深入浅出大数据核心技术与应用之HBase

作者：创意沙发2011 | 来源：互联网 | 2023-09-11 02:11

HBase隶属于hadoop生态系统，它参考了谷歌的BigTable建模，实现的编程语言为Java,建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。

HBase隶属于hadoop生态系统，它参考了谷歌的BigTable建模，实现的编程语言为 Java, 建立在HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它仅能通过主键(row key)和主键的range来检索数据，主要用来存储非结构化和半结构化的松散数据。与hadoop一样，HBase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。HBase数据库中的表一般有这样的特点：

大：一个表可以有上亿行，上百万列
面向列：面向列(族)的存储和权限控制，列(族)独立检索
稀疏：对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏

体系架构：

Client的主要功能：

使用HBase的RPC机制与HMaster和HRegionServer进行通信
对于管理类操作，Client与HMaster进行RPC
对于数据读写类操作，Client与HRegionServer进行RPC

Zookeeper功能：

保证任何时候，集群中只有一个master，Master与RegionServers 启动时会向ZooKeeper注册
实时监控Region server的上线和下线信息,并实时通知给Master
存储所有Region的寻址入口和HBase的table元数据

HMaster功能：

管理HRegionServer，实现其负载均衡
管理和分配HRegion，比如在HRegion split时分配新的HRegion；在HRegionServer退出时迁移其内的HRegion到其他HRegionServer上
监控集群中所有HRegionServer的状态(通过Heartbeat和监听ZooKeeper中的状态)

HRegionServer功能：

Region server维护Master分配给它的region，处理对这些region的IO请求
Region server负责切分在运行过程中变得过大的region

小结：
·client访问hbase上数据的过程并不需要master参与（寻址访问zookeeper，数据读写访问regione server），master仅仅维护者table和region的元数据信息，负载很低
·HRegion所处理的数据尽量和数据所在的DataNode在一起，实现数据的本地化

数据模型：

Table: 与传统关系型数据库类似，HBase以表(Table)的方式组织数据，应用程序将数据存入HBase表中
Row: HBase表中的行通过 RowKey 进行唯一标识，不论是数字还是字符串，最终都会转换成字段数据进行存储；HBase表中的行是按RowKey字典顺序排列
Column Family: HBase表由行和列共同组织，同时引入列族的概念，它将一列或多列组织在一起，HBase的列必须属于某一个列族，在创建表时只需指定表名和至少一个列族
Cell: 行和列的交叉点称为单元格，单元格的内容就是列的值，以二进制形式存储，同时它是版本化的
version: 每个cell的值可保存数据的多个版本（到底支持几个版本可在建表时指定），按时间顺序倒序排列，时间戳是64位的整数，可在写入数据时赋值，也可由RegionServer自动赋值

注意：

HBase没有数据类型，任何列值都被转换成字符串进行存储与关系型数据库在创建表时需明确包含的列及类型不同，HBase表的每一行可以有不同的列
相同RowKey的插入操作被认为是同一行的操作。即相同RowKey的二次写入操作，第二次可被可为是对该行某些列的更新操作
列由列族和列名连接而成，分隔符是冒号，如d:Name（d:列族名，Name:列名）

小结：

HBase不支持条件查询和Order by等查询，读取记录只能按Row key（及其range）或全表扫描
在表创建时只需声明表名和至少一个列族名，每个Column Family为一个存储单元
设计一个HBase表在实际应用中强烈建议使用单列族
Column不用创建表时定义即可以动态新增，同一Column Family的Columns会群聚在一个存储单元上，并依Column key排序，因此设计时应将具有相同I/O特性的Column设计在一个Column Family上以提高性能。注意：这个列是可以增加和删除的，这和我们的传统数据库很大的区别。所以他适合非结构化数据
HBase通过row和column确定一份数据，这份数据的值可能有多个版本，不同版本的值按照时间倒序排序，即最新的数据排在最前面，查询时默认返回最新版本。
Timestamp默认为系统当前时间（精确到毫秒），也可以在写入数据时指定该值
·每个单元格值通过4个键唯一索引，tableName+RowKey+ColumnKey+Timestamp=>value
存储类型
TableName 是字符串
RowKey 和 ColumnName 是二进制值（Java 类型 byte[]）
Timestamp 是一个 64 位整数（Java 类型 long）
value 是一个字节数组（Java类型 byte[]）

HBase寻址，Client访问用户数据时如何找到某个row key所在的region？
0.94- 版本，Client访问用户数据之前需要首先访问zookeeper，然后访问-ROOT-表，接着访问.META.表，最后才能找到用户数据的位置去访问，中间需要多次网络操作，如下图：深入浅出大数据核心技术与应用之HBase
0.96+版本删除了root 表，改为zookeeper里面的文件，如下图 A，以读为例，寻址示意图如B：

推荐阅读

byte
深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用

深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用 ... [详细]

蜡笔小新 2024-11-02 18:57:12
byte
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
object
深入解析 Lifecycle 的实现原理

本文将详细介绍 Android Jetpack 中 Lifecycle 组件的实现原理，帮助开发者更好地理解和使用 Lifecycle，避免常见的内存泄漏问题。 ... [详细]

蜡笔小新 2024-11-12 14:05:19
js
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
byte
FastDFS Nginx 扩展模块的源代码解析与技术剖析

FastDFS Nginx 扩展模块的源代码解析与技术剖析 ... [详细]

蜡笔小新 2024-11-04 20:15:18
match
2019年后蚂蚁集团与拼多多面试经验详述与深度剖析

2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]

蜡笔小新 2024-10-30 17:30:06
match
深入解析OSI七层架构与TCP/IP协议体系

本文详细探讨了OSI七层模型（Open System Interconnection，开放系统互连）及其与TCP/IP协议体系的关系。OSI模型将网络通信过程划分为七个层次，每个层次负责不同的功能，从物理层到应用层逐步实现数据传输和处理。通过对比分析，本文揭示了OSI模型与TCP/IP协议在结构和功能上的异同，为理解现代网络通信提供了全面的视角。 ... [详细]

蜡笔小新 2024-10-30 12:58:01
match
使用OpenSSL自建CA证书（实测有效）

本文详细介绍了如何使用OpenSSL自建CA证书的步骤，包括准备工作、生成CA证书、生成服务器待签证书以及证书签名等过程。 ... [详细]

蜡笔小新 2024-11-13 09:55:03
utf-8
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
export
ARM汇编基础基于Keil创建STM32汇编程序的编写

文章目录一、新建项目（1）工具介绍（2）创建项目：二、配置环境（1）配置芯片&#x ... [详细]

蜡笔小新 2024-11-12 08:39:33
js
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
match
单片机入门指南：基础理论与实践

本文介绍了单片机的基础知识及其应用。单片机是一种将微处理器（类似于CPU）、存储器（类似硬盘和内存）以及多种输入输出接口集成在一块硅片上的微型计算机系统。通过详细解析其内部结构和功能，帮助初学者快速掌握单片机的基本原理和实际操作方法。 ... [详细]

蜡笔小新 2024-11-11 23:53:26
object
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
shell
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
shell
番外篇1：深入解析分布式服务器的工作原理与应用

（1）前期知识：1. 单机架构：单一服务器计算机——其处理能力和存储容量有限。2. 集群架构（负载均衡器与多节点服务器）——通过增加节点数量来提升系统性能和可靠性，实现高效的任务分配和资源利用。 ... [详细]

蜡笔小新 2024-11-06 11:43:13

创意沙发2011

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章