当前位置: 开发笔记 > 编程语言 > 正文

Hadoop面试题之Hbase

作者：13888102467波光_1984 | 来源：互联网 | 2023-07-07 16:53

Hadoop面试题之九 16.Hbase的rowkey怎么创建比较好？列族怎么创建比较好？答：19.Hbase内部是什么机制？答： 73.hbase写数据的原理是什么？答：75.

Hadoop 面试题之九

16.Hbase 的rowkey 怎么创建比较好？列族怎么创建比较好？

19.Hbase 内部是什么机制？

73.hbase 写数据的原理是什么？

75.hbase宕机如何处理？

144. 如果让你设计，你觉得一个分布式文件系统应该如何设计，考虑哪方面内容；

每天百亿数据入hbase，如何保证数据的存储正确和在规定的时间里全部录入完毕，

不残留数据。

149.hbase过滤器实现原则。

164.介绍一下hbase过滤器。

167.hbase集群安装注意事项。

319.Hbase 在进行模型设计时重点在什么地方？一张表中定义多少个Column Family

最合适？为什么？

320.如何提高HBase客户端的读写性能？请举例说明。

353.我们的hbase 大概在公司业务中（主要是网上商城）大概都有几个表，几个表族，大概都存什么样的数据？

354.hbase的并发问题？ storm 问题

394.你们用HBASE 存储什么数据？

407.Hbase的体系结构和搭建步骤、shell命令与JavaApi、hbase作为Mapreduce

的输入输出源、高级Javaapi、工作原理（重点是combine和split原理）、行健设计原则、性能优化？

414.现在我们要对oracle 和hbase中的某些表进行更新，你是怎么操作？

415.hbase 接受数据，如果短时间导入数量过多的话就会被锁，该怎么办？集群数16台，高可用性的环境。

参考：

通过调用Htable.setAutoFlush(false)方法可以将htable写客户端的自动flush关闭，这样可以批量写入到数据到hbase。而不是有一条put 就执行一次更新，只有当put填满客户端写缓存时，才实际向Hbase 服务端发起请求。默认情况下auto flush 是开启的。

419.怎样将mysql的数据导入到hbase中？不能使用sqoop，速度太慢了

提示：

A、一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入hbase时，会按照region分区情况，在集群内做数据的负载均衡。

B、hbase 里面有这样一个hfileoutputformat类，他的实现可以将数据转换成hfile格式，通过new一个这个类，进行相关配置，这样会在Hdfs下面产生一个文件，这个时候利用hbase提供的jruby的loadtable.rb脚本就可以进行批量导入。

433.介绍一下Hbase过滤器

参考：：http://blog.sina.com.cn/s/blog_ae33b83901017km4.html

435.谈谈Hbase集群安装注意事项？

提示：需要注意的地方是zookeeper的配置，这与hbase-env.sh 文件相关，文集中hbase_managers_zk环境变量用来设置是使用hbase 默认自带的zookeeper 还是使用队里的zookeeper。HBASE_MANGES_ZK=false 时，使用独立的。true是使用默认自带的。

某个节点的hregionserver启动失败，这是由于这3个节点的系统时间不一致相差超过集群的检查时间30s。

477.简述HBase的瓶颈

提示：HBase的瓶颈就是硬传输速度，Hbase 的操作，它可以往数据里面 insert，也可以update一些数据，但update 的实际上也是insert，只是插入一个新的时间戳的一行，delete数据，也是insert，只是insert一行带有delete标记的一行。hbase的所有操作都是追加插入操作。hbase是一种日志集数据库。它的存储方式，像是日志文件一样。它是批量大量的往硬盘中写，通常都是以文件形式的读写。这个读写速度，就取决于硬盘与机器之间的传输有多快。而oracle的瓶颈是硬盘寻到时间。它经常的操作时随机读写。要update一个数据，先要在硬盘中找到这个block，然后把它读入内存，在内存中的缓存中修改，过段时间再回写回去。由于你寻找的block不通，这就存在一个随机的读。硬盘的寻道时间主要由转速来决定。而寻道时间，技术基本没有改变，这就形成了寻道时间瓶颈。

491.HBase如果只向一个RegionServer写入数据，有什么优点？

494.HBase一行数据如何存储？

501.hbase的存储原理

545.hbase协处理器？

421.怎么知道hbase表里哪些做索引？哪些没有做索引？

提示：

有且仅有一个：rowkey，所以hbase得快速查找建立在rowkey的基础的，而不能像一般的关系型数据库那样建立多个索引来达到多条件查找的效果。

24.Hbase过滤器实现原则

----------------------------------------------------------------have done-------------------------------------------------------------

60.描述Hbase搭建过程

351.hbase 怎么给web前台提供接口来访问(Htable 可以提供对htable的访问，但是怎么查询同一条记录的多个版本数据？)

推荐阅读

stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
merge
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
数组
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
stream
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
io
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
io
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
数组
PHP中元素的计量单位是什么？

PHP中元素的计量单位是什么？ ... [详细]

蜡笔小新 2024-11-01 15:06:51
stream
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
select
NoSQL 数据查询与检索技术解析

NoSQL数据库，即非关系型数据库，有时也被称作Not Only SQL，是一种区别于传统关系型数据库的管理系统。这类数据库设计用于处理大规模、高并发的数据存储与查询需求，特别适用于需要快速读写大量非结构化或半结构化数据的应用场景。NoSQL数据库通过牺牲部分一致性来换取更高的可扩展性和性能，支持分布式部署，能够有效应对互联网时代的海量数据挑战。 ... [详细]

蜡笔小新 2024-10-28 18:13:15
io
Hadoop的分布式架构改进与应用

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-10-11 14:10:35
io
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
io
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
client
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
io
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24
io
windows部署hadoop2.7.0

这里使用自己编译的hadoop-2.7.0版本部署在windows上，记得几年前，部署hadoop需要借助于cygwin，还需要开启ssh服务，最近发现，原来不需要借助cy ... [详细]

蜡笔小新 2023-10-17 21:04:04

13888102467波光_1984

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章