Hbase高级应用（三）Hbase的设计原则

作者：HGKHGK | 来源：互联网 | 2023-08-23 14:27

Hbase的设计原则HBase是三维有序存储的，通过rowkey（行键），columnkey（columnf

Hbase的设计原则

HBase是三维有序存储的&＃xff0c;通过rowkey&＃xff08;行键&＃xff09;&＃xff0c;column key&＃xff08;column family和qualifier&＃xff09;和TimeStamp&＃xff08;时间戳&＃xff09;这个三个维度可以对HBase中的数据进行快速定位。

HBase中rowkey可以唯一标识一行记录&＃xff0c;有以下3种查询方式&＃xff1a;

通过get方式&＃xff0c;指定rowkey获取唯一一条记录
通过scan方式&＃xff0c;设置startRow和stopRow参数进行范围匹配
全表扫描&＃xff0c;即直接扫描整张表中所有行记录

1、rowkey长度原则

rowkey是一个二进制码流&＃xff0c;可以是任意字符串&＃xff0c;最大长度64kb&＃xff0c;实际应用中一般为10-100bytes&＃xff0c;以byte[]形式保存&＃xff0c;一般设计成定长。
建议越短越好&＃xff0c;不要超过16个字节&＃xff0c;原因如下&＃xff1a;

数据的持久化文件HFile中是按照KeyValue存储的&＃xff0c;如果rowkey过长&＃xff0c;比如超过100字节&＃xff0c;1000w行数据&＃xff0c;光rowkey就要占用100*1000w&＃61;10亿个字节&＃xff0c;将近1G数据&＃xff0c;这样会极大影响HFile的存储效率&＃xff1b;
MemStore将缓存部分数据到内存&＃xff0c;如果rowkey字段过长&＃xff0c;内存的有效利用率就会降低&＃xff0c;系统不能缓存更多的数据&＃xff0c;这样会降低检索效率。

2、rowkey散列原则

如果rowkey按照时间戳的方式递增&＃xff0c;不要将时间放在二进制码的前面&＃xff0c;建议将rowkey的高位作为散列字段&＃xff0c;由程序随机生成&＃xff0c;低位放时间字段&＃xff0c;这样将提高数据均衡分布在每个RegionServer&＃xff0c;以实现负载均衡的几率。如果没有散列字段&＃xff0c;首字段直接是时间信息&＃xff0c;所有的数据都会集中在一个RegionServer上&＃xff0c;这样在数据检索的时候负载会集中在个别的RegionServer上&＃xff0c;造成热点问题&＃xff0c;会降低查询效率。

3、rowkey唯一原则

必须在设计上保证其唯一性&＃xff0c;rowkey是按照字典顺序排序存储的&＃xff0c;因此&＃xff0c;设计rowkey的时候&＃xff0c;要充分利用这个排序的特点&＃xff0c;将经常读取的数据存储到一块&＃xff0c;将最近可能会被访问的数据放到一块。

喜欢就点赞评论&＃43;关注吧

这里写图片描述

感谢阅读&＃xff0c;希望能帮助到大家&＃xff0c;谢谢大家的支持&＃xff01;

推荐阅读

split
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
数组
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
php
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
cookie
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
merge
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
list
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
split
FastDFS Nginx 扩展模块的源代码解析与技术剖析

FastDFS Nginx 扩展模块的源代码解析与技术剖析 ... [详细]

蜡笔小新 2024-11-04 20:15:18
split
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
char
在Windows系统上部署并启动MySql免安装版本的详细指南

本文提供了在Windows系统上部署和启动MySQL免安装版本的详细步骤。首先，从MySQL官方网站下载社区版免安装包（https://dev.mysql.com/downloads/mysql/8.0.html），将其解压至指定目录，例如D:\tools\mysql。接着，配置系统环境变量，确保MySQL命令行工具可以在任意路径下使用。此外，还需创建并配置my.ini文件以设置MySQL的基本参数，确保数据库服务能够顺利启动和运行。 ... [详细]

蜡笔小新 2024-11-02 16:49:00
char
CentOS 7 中 MySQL 5.6 启动时遇到权限问题

在 CentOS 7 环境中使用 MySQL 5.6 镜像启动数据库时遇到权限问题，本文将详细探讨并提供解决方案。 ... [详细]

蜡笔小新 2024-11-14 10:49:29
dll
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
数组
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
datetime
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
testing
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
datetime
在MySQL中实现时间比较功能的详细解析与应用

在MySQL中实现时间比较功能的详细解析与应用。本文深入探讨了MySQL中时间比较的实现方法，重点介绍了`UNIX_TIMESTAMP`函数的应用。该函数可以接收一个日期时间参数，也可以不带参数使用，其返回值为Unix时间戳，便于进行时间的精确比较和计算。此外，文章还涵盖了其他相关的时间处理函数和技巧，帮助读者更好地理解和掌握MySQL中的时间操作。 ... [详细]

蜡笔小新 2024-11-03 20:58:57

HGKHGK

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章