大数据什么是hbase？hbase的行存储及列存储关系数据库和非关系型数据库的优劣

作者：手机用户2502934681 | 来源：互联网 | 2023-09-02 21:35

一、什么是HBASE&＃xff1f; HBASE是Apache提供的基于Hadoop的、分布式的、可扩展的、能够存储大量数据的非关系型数据库基于Google的论文《BigTable》设计实现区别于传

一、什么是HBASE&＃xff1f;

HBASE是Apache提供的基于Hadoop的、分布式的、可扩展的、能够存储大量数据的非关系型数据库
基于Google的论文《BigTable》设计实现
区别于传统数据库的行存储&＃xff0c;HBASE是面向列进行存储&＃xff0c;底层基于Key-Value结构存储
HBASE能够提供低延迟的数据查询能力&＃xff0c;其原因是底层充分利用了缓存机制以及复杂的数据结构和算法来实现

二、HBASE的行存储和列存储

行存储在磁盘上的存储是连续的&＃xff1b;列存储在磁盘上的存储是不连续的
从写入性能上对比&＃xff0c;写入次数越少性能越高。因为针对磁盘的每一次写入&＃xff0c;都要发生磁头调度&＃xff0c;产生寻道时间。因为行存储是只写一次而列存储要写多次&＃xff0c;所以行存储在写入性能上更有优势
从读取性能上对比&＃xff1a;
如果读取的是整表&＃xff0c;则行存储性能较高
如果是读取指定的列&＃xff0c;则行存储会产生冗余列&＃xff0c;而冗余列的消除是在内存中发生。而列存储则不会存在冗余列
在存储数据的时候&＃xff0c;如果基于行存储&＃xff0c;由于一行数据的字段类型可能不同&＃xff0c;所以会产生频繁的数据类型转换&＃xff1b;如果是基于列存储&＃xff0c;由于同一列数据的类型一般一致&＃xff0c;则可以避免频繁的数据类型转换&＃xff0c;同时可以考虑一些更好的压缩算法对一列数据进行压缩

三、HBASE的特点

分布式架构&＃xff1a;HBASE是通过集群来存储数据&＃xff0c;数据最终要落地到HDFS上
是一种NoSQL的非关系型数据库&＃xff0c;不符合关系型数据库的范式
面向列存储&＃xff0c;底层基于key-value结构
适合存储半结构化、非结构化的数据
适合存储稀疏的数据&＃xff0c;空的数据不占用空间
提供实时的增删改查的能力&＃xff0c;但是不提供严格的事务机制&＃xff0c;只能在行级别提供事务

四、关系型和非关系性数据库优劣

传统关系型数据库的缺陷&＃xff1a;
高并发读写的瓶颈&＃xff1a;Web 2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息&＃xff0c;所以基本上无法使用静态化技术&＃xff0c;因此数据库并发负载非常高&＃xff0c;可能峰值会达到每秒上万次读写请求。关系型数据库应付上万次SQL查询还勉强顶得住&＃xff0c;但是应付上万次SQL写数据请求&＃xff0c;硬盘I/O却无法承受。其实对于普通的BBS网站&＃xff0c;往往也存在相对高并发写请求的需求&＃xff0c;例如&＃xff0c;人人网的实时统计在线用户状态&＃xff0c;记录热门帖子的点击次数&＃xff0c;投票计数等&＃xff0c;这是一个相当普遍的业务需求
可扩展性的限制&＃xff1a;在基于Web的架构中&＃xff0c;数据库是最难以进行横向扩展的&＃xff0c;当应用系统的用户量和访问量与日俱增时&＃xff0c;数据库系统却无法像Web Server和App Server那样简单地通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说&＃xff0c;对数据库系统进行升级和扩展是非常痛苦的事情&＃xff0c;往往需要停机维护和数据迁移&＃xff0c;而不能通过横向添加节点的方式实现无缝扩展
事务一致性的负面影响&＃xff1a;事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。保证数据库一致性是指当事务完成时&＃xff0c;必须使所有数据都具有一致的状态。在关系型数据库中&＃xff0c;所有的规则必须应用到事务的修改上&＃xff0c;以便维护所有数据的完整性&＃xff0c;这随之而来的是性能的大幅度下降。很多Web系统并不需要严格的数据库事务&＃xff0c;对读一致性的要求很低&＃xff0c;有些场合对写一致性要求也不高。因此数据库事务管理成了高负载下的一个沉重负担
复杂SQL查询的弱化&＃xff1a;任何大数据量的Web系统都非常忌讳几个大表间的关联查询&＃xff0c;以及复杂的数据分析类型的SQL查询&＃xff0c;特别是SNS类型的网站&＃xff0c;从需求以及产品设计角度就避免了这种情况的产生。更多的情况往往只是单表的主键查询&＃xff0c;以及单表的简单条件分页查询&＃xff0c;SQL的功能被极大地弱化了&＃xff0c;所以这部分功能不能得到充分发挥
NoSQL数据库的优势:
扩展性强&＃xff1a;NoSQL数据库种类繁多&＃xff0c;但是一个共同的特点就是去掉关系型数据库的关系特性&＃xff0c;数据之间是弱关系&＃xff0c;非常容易扩展。一般来说&＃xff0c;NoSql数据库的数据结构都是Key-Value字典式存储结构。例如&＃xff0c;HBase、Cassandra等系统的水平扩展性能非常优越&＃xff0c;非常容易实现支撑数据从TB到PB级别的过渡
并发性能好&＃xff1a;NoSQL数据库具有非常良好的读写性能&＃xff0c;尤其在大数据量下&＃xff0c;同样表现优秀。当然这需要有优秀的数据结构和算法做支撑
数据模型灵活&＃xff1a;NoSQL无须事先为要存储的数据建立字段&＃xff0c;随时可以存储自定义的数据格式。而在关系型数据库中&＃xff0c;增删字段是一件非常麻烦的事情。对于数据量非常大的表&＃xff0c;增加字段简直就是一场噩梦。NoSQL允许使用者随时随地添加字段&＃xff0c;并且字段类型可以是任意格式。

推荐阅读

数组
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
uri
对MariaDB未来发展的思考与担忧

本文探讨了MariaDB在当前数据库市场中的地位和挑战，分析其可能面临的困境，并提出了对未来发展的几点看法。 ... [详细]

蜡笔小新 2024-12-25 18:20:32
join
Netflix利用Druid实现高效实时数据分析

本文探讨了全球领先的在线娱乐公司Netflix如何通过采用Apache Druid，实现了高效的数据采集、处理和实时分析，从而显著提升了用户体验和业务决策的准确性。文章详细介绍了Netflix在系统架构、数据摄取、管理和查询方面的实践，并展示了Druid在大规模数据处理中的卓越性能。 ... [详细]

蜡笔小新 2024-12-23 11:10:01
install
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
python
离线安装Grafana Cloudera Manager插件并监控CDH集群

本文详细介绍如何离线安装Cloudera Manager (CM) 插件，并通过Grafana监控CDH集群的健康状况和资源使用情况。该插件利用CM提供的API接口进行数据获取和展示。 ... [详细]

蜡笔小新 2024-12-21 17:56:30
format
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
uri
深入解析Spring Cloud微服务架构与分布式系统实战

本文详细介绍了Spring Cloud在微服务架构和分布式系统中的应用，结合实际案例和最新技术，帮助读者全面掌握微服务的实现与优化。 ... [详细]

蜡笔小新 2024-12-19 16:02:50
io
Spring Cloud学习指南：深入理解微服务架构

本文介绍了微服务架构的基本概念及其在Spring Cloud中的实现。讨论了微服务架构的主要优势，如简化开发和维护、快速启动、灵活的技术栈选择以及按需扩展的能力。同时，也探讨了微服务架构面临的挑战，包括较高的运维要求、分布式系统的复杂性、接口调整的成本等问题。最后，文章提出了实施微服务时应遵循的设计原则。 ... [详细]

蜡笔小新 2024-12-19 09:25:36
int
MySQL架构在大规模应用中的进化路径

本文探讨了随着并发需求的增长，MySQL数据库架构如何从简单的单一实例发展到复杂的分布式系统，以及每一步演进背后的原理和技术解决方案。 ... [详细]

蜡笔小新 2024-12-16 09:00:35
io
ArchSummit深圳2014：讲师阵容公布，报名进入倒计时

ArchSummit深圳2014将于7月18日拉开帷幕，所有讲师已确认，涵盖9个热门话题，共36场精彩报告。InfoQ中文站提供了详细的讲师和报告列表。 ... [详细]

蜡笔小新 2024-12-05 12:26:16
io
MyBatis：深入解析与应用

在当前众多持久层框架中，MyBatis（前身为iBatis）凭借其轻量级、易用性和对SQL的直接支持，成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]

蜡笔小新 2024-12-27 12:17:16
jar
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
shell
网络运维工程师的前景与薪酬分析

网络运维工程师负责确保企业IT基础设施的稳定运行，保障业务连续性和数据安全。他们需要具备多种技能，包括搭建和维护网络环境、监控系统性能、处理突发事件等。本文将探讨网络运维工程师的职业前景及其平均薪酬水平。 ... [详细]

蜡笔小新 2024-12-26 14:35:04
uri
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
controller
Java项目分层架构设计与实践

本文探讨了Java项目中应用分层的最佳实践，不仅介绍了常见的三层架构（Controller、Service、DAO），还深入分析了各层的职责划分及优化建议。通过合理的分层设计，可以提高代码的可维护性、扩展性和团队协作效率。 ... [详细]

蜡笔小新 2024-12-22 12:14:24

手机用户2502934681

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章