当前位置: 开发笔记 > 编程语言 > 正文

轻松了解列式存储

作者：大豆子 | 来源：互联网 | 2023-09-02 14:37

https:www.cnblogs.comlixinjiepfive-minutes-glance-at-hbase.html行式存储传统的数据库是关系型的，且是按行来存储的。如

https://www.cnblogs.com/lixinjie/p/five-minutes-glance-at-hbase.html

行式存储

传统的数据库是关系型的，且是按行来存储的。如下图：

其中只有张三把一行数据填满了，李四王五赵六的行都没有填满。因为这里的行结构是固定的，每一行都一样，即使你不用，也必须空到那里，而不能没有。来一张形象的图：

不管你坐或不坐，座位都在那里，不离不弃。

列式存储

为了与传统的区别，新型数据库叫做非关系型数据库，是按列来存储的。如下图：

初次看列式存储稍微有点懵，下面给出行存与列存的转换：

原来张三的一列（单元格）数据对应现在张三的一行数据。原来张三的六列数据变成了现在的六行。

原来的六列数据是在一行，所以共用一个主键（即张三）。现在变成了六行，每行都需要一个主键（不然不知道这行数据是谁的），所以原来的主键（即张三）重复了六次。如下图：

由于原来的列变为了现在的行，有需要就加一行，没需要就不加，不会造成空间浪费。来一张形象的图：

（摆渡车内部就是一个大平板）

你要站便站，我给你空间，你不站便不站，还给我空间。

行列对比

① 行式存储倾向于结构固定，列式存储倾向于结构弱化。

（行式存储相当于套餐，即使一个人来了也给你上八菜一汤，造成浪费；列式存储相等于自助餐，按需自取，人少了也不浪费）

② 行式存储一行数据只需一份主键，列式存储一行数据需要多份主键。

③ 行式存储存的都是业务数据，列式存储除了业务数据外，还要存储列名。

④ 行式存储更像一个Java Bean，所有字段都提前定义好，且不能改变；列式存储更像一个Map，不提前定义，随意往里添加key/value。

官方介绍

Apache Hbase是Hadoop数据库，一个分布式、可扩展、大数据存储。

当你需要随机地实时读写大数据时使用Hbase。它的目标是管理超级大表-数十亿行X数百万列。

Hbase是一个开源的、分布式的、带版本的、非关系型数据库，模仿谷歌的BigTable。BigTable使用Google File System作为分布式数据存储，同理Hbase使用HDFS。

Hbase世界

Hbase虽然弱化了结构，但并不等于放任不管。传统关系型数据库在插入数据前表结构（即所有列和列的数据类型）已经是严格确定的。

Hbase的表在放入数据前也有需要确定下来的东西，那就是Column Family（常译为列族/列簇）。单词Family就是家庭的意思，所以列族就是列的家庭。那么列自然就是家庭成员了，通常家庭成员都有多个，所以一个列族包含多个列。

一个家庭的成员之间具有血缘关系，所以一个列族的多个列之间通常也具有某种关系，比如相似或同种类别。所以列族可以看作是某种分类（归类）。

一个非常常见的例子，去面试的时候，一般前台MM都会让填一张表，通常信息很多，每个公司又不尽相同。但大致可以分三类：人员基本信息，教育经历信息，工作经历信息，这三个类别其实就相当于三个列族。如下图：

每个类别里都会有具体的信息，比如人员基本信息里有姓名、电话、出生年月等，它们就相当于一个个标识符（变量名），在Hbase中叫做Column Qualifier（列修饰符）。列修饰符位于列族里面用来标识一条条数据。如下图：

在Hbase中一个列族（Column Family）和一个列修饰符（Column Qualifier）组合起来才叫一个列（Column），使用冒号（:）分割，列族:列修饰符，如下图：

在传统数据库中每一行的唯一标识符叫做主键，在Hbase中叫做row key（行键）。如下图：

数据在进入Hbase时都会被打上一个时间戳，这个时间戳可以作为版本号来使用。

在t1时间我存入一个人的基本信息，之后发现姓名错了，在t2时间又更新了姓名，此时并不会去更新原来的那条数据，而是又插入了一条新数据且打上新的时间戳。

此时去查询获取的是新数据，仿佛是更新了，但其实只是默认返回了最新版本的数据而已。如下图：

一个行键、列族、列修饰符、数据和时间戳组合起来叫做一个单元格（Cell）。这里的行键、列族、列修饰符和时间戳其实可以看作是定位属性（类似坐标），最终确定了一个数据。下图中的一行相等于Hbase中的一个单元格：

一个行键、一到多列（包括数据）组合起来叫做一行（Row）。下图中所有1001的数据合起来相当于Hbase中的一行，1002的相当于另一行：

在Hbase中，只要确定了列族（具体的列不用管），表（Table）就确定了。如下图：

官方文档中提醒：把传统数据库中的表/行/列的概念用在Hbase中不是一个有帮助的类比。相反可以把Hbase的表想象成一个多（两）维Map（Map套Map）。列族是第一维，列修饰符是第二维。

说明：任何细微的差别在大数量时都会被无限放大，那么列族和列修饰符的名字起的短一些能够节省可观的空间。

推荐阅读

stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ip
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
int
如何安全地手动移除Exchange Server 2003以确保系统稳定性和数据完整性

本文详细介绍了如何安全地手动卸载Exchange Server 2003，以确保系统的稳定性和数据的完整性。根据微软官方支持文档（https://support.microsoft.com/kb833396/zh-cn），在进行卸载操作前，需要特别注意备份重要数据，并遵循一系列严格的步骤，以避免对现有网络环境造成不利影响。此外，文章还提供了详细的故障排除指南，帮助管理员在遇到问题时能够迅速解决，确保整个卸载过程顺利进行。 ... [详细]

蜡笔小新 2024-11-06 08:13:47
header
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新 2024-11-14 19:07:05
header
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
scala
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
java
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
uri
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
ip
在List和Set集合中存储Object类型的数据元素

在List和Set集合中存储Object类型的数据元素 ... [详细]

蜡笔小新 2024-11-09 18:55:32
node.js
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
uri
REST与RPC：选择哪种API架构风格？

在探讨REST与RPC这两种API架构风格的选择时，本文首先介绍了RPC（远程过程调用）的概念。RPC允许客户端通过网络调用远程服务器上的函数或方法，从而实现分布式系统的功能调用。相比之下，REST（Representational State Transfer）则基于资源的交互模型，通过HTTP协议进行数据传输和操作。本文将详细分析两种架构风格的特点、适用场景及其优缺点，帮助开发者根据具体需求做出合适的选择。 ... [详细]

蜡笔小新 2024-11-07 12:00:58
int
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
tree
Python 实战：异步爬虫（协程技术）与分布式爬虫（多进程应用）深入解析

本文将深入探讨 Python 异步爬虫和分布式爬虫的技术细节，重点介绍协程技术和多进程应用在爬虫开发中的实际应用。通过对比多进程和协程的工作原理，帮助读者理解两者在性能和资源利用上的差异，从而在实际项目中做出更合适的选择。文章还将结合具体案例，展示如何高效地实现异步和分布式爬虫，以提升数据抓取的效率和稳定性。 ... [详细]

蜡笔小新 2024-11-05 14:12:56
tree
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
tree
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22

大豆子

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章