Hbase读数据大概流程

作者：清皮皮 | 来源：互联网 | 2023-08-28 15:38

**1.**发起请求,请求到zookeeper集群,帮助你返回元数据位置机器,找到这个机器,请求RS下载元数据表(meta)**2.**返回元数据表,然后做一个缓存解析,开始解析所

Hbase读数据大概流程
**1.**发起请求,请求到zookeeper集群,帮助你返回元数据位置机器,找到这个机器,请求RS下载元数据表(meta)

**2.**返回元数据表,然后做一个缓存解析,开始解析所拿到的表的行数据在哪个Region里,开始请求这个Region获取数据

**3.**取的数据可能取一个store或两个store
3.1先从region的内存(Memstore)中找,有的话返回,并且加到缓存块(CacheBlock)里,如果内存中有,写到缓存里,
3.2 如果内存中没有,就从缓存拿,然后返回,
3. 3 如果缓存里也没有,就去Hfile中获取数据,(效率低)

4. 在HDFS对应的region中可能有很对个列族,在每个列族文件夹中可能有很多Hfile文件,要确定查询的key在哪个文件中,如果文件太多,一个一个找太麻烦,所以引入了一个算法:布隆过滤器布隆过滤器在Hbase中的应用–有了布隆过滤器后,从大量的文件里定位到具体哪个文件里有,在hfile里打一个标记

5. 根据rowkey,hashcode值确定位置是0还是1,是0的话绝对不存在,是1有可能存在

6. 在进行拿key的时候不是再次遍历,而是有一个index索引,它告诉你文件在这个索引里,进来以后看这个索引index,startkey,没有的话瞬间就走了,如果有的话瞬间就能找到这个数据块,然后就拿走了

推荐阅读

php
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
php
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
split
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
header
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
header
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
buffer
如何优化MySQL数据库性能以提升查询效率和系统稳定性

如何优化MySQL数据库性能以提升查询效率和系统稳定性 ... [详细]

蜡笔小新 2024-11-09 13:48:51
header
小程序的授权和登陆

小程序的授权和登陆 ... [详细]

蜡笔小新 2024-11-14 19:07:05
case
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
blob
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
php
解决DNS服务器配置转发无法解析的问题

本文详细介绍了如何解决DNS服务器配置转发无法解析的问题，包括编辑主配置文件和重启域名服务的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 02:41:19
php
MySQL查询执行流程详解

MySQL的查询执行流程涉及多个关键组件，包括连接器、查询缓存、分析器和优化器。在服务层，连接器负责建立与客户端的连接，查询缓存用于存储和检索常用查询结果，以提高性能。分析器则解析SQL语句，生成语法树，而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]

蜡笔小新 2024-11-11 16:48:32
instance
深入解析JDK 8 HashMap源代码：put方法详解及capacity、size、loadFactor和红黑树转换阈值的设定原理

本文深入解析了JDK 8中HashMap的源代码，重点探讨了put方法的工作机制及其内部参数的设定原理。HashMap允许键和值为null，但键为null的情况只能出现一次，因为null键在内部通过索引0进行存储。文章详细分析了capacity（容量）、size（大小）、loadFactor（加载因子）以及红黑树转换阈值的设定原则，帮助读者更好地理解HashMap的高效实现和性能优化策略。 ... [详细]

蜡笔小新 2024-11-10 14:10:53
get
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
get
分布式开源任务调度框架 TBSchedule 深度解析与应用实践

本文深入解析了分布式开源任务调度框架 TBSchedule 的核心原理与应用场景，并通过实际案例详细介绍了其部署与使用方法。首先，从源码下载开始，详细阐述了 TBSchedule 的安装步骤和配置要点。接着，探讨了该框架在大规模分布式环境中的性能优化策略，以及如何通过灵活的任务调度机制提升系统效率。最后，结合具体实例，展示了 TBSchedule 在实际项目中的应用效果，为开发者提供了宝贵的实践经验。 ... [详细]

蜡笔小新 2024-11-02 11:59:52
get
【并发编程】全面解析 Java 内存模型，一篇文章带你彻底掌握

本文深入解析了 Java 内存模型（JMM），从基础概念到高级特性进行全面讲解，帮助读者彻底掌握 JMM 的核心原理和应用技巧。通过详细分析内存可见性、原子性和有序性等问题，结合实际代码示例，使开发者能够更好地理解和优化多线程并发程序。 ... [详细]

蜡笔小新 2024-11-02 09:09:51

清皮皮

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章