HadoopHive基础整理（架构以及存储）

作者：更东陌飞絮蒙蒙 | 来源：互联网 | 2023-09-14 11:08

1. hive的介绍

什么是hive：Hive是基于hadoop的一个数据仓库工具，实质就是一款基于hdfs的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。

hive的工作方式：把存放在hive中的数据都抽象成一张二维表格，提供了一个类似于sql语句的操作方式，这些sql语句最终被hive的底层翻译成为MapReduce程序，最终在hadoop集群上运行，结果也会输出在hdfs之中。（必须是结构化的数据）。在存储的时候hive对数据不做校验，在读取的时候校验。

hive的的优点：极大的简化了分布式的计算程序的编程。使不会分布式编程的，其他工作人员都可以进行海量数据的统计分析。

hive的的缺点(3点)：
延迟高，事务，增删改

不支持行级别的增删改操作
hive的查询延迟很严重
hive中不支持事务，主要用于做OLAP(联机分析处理)。

hive的的适用场景：hive数据仓库中的数据，主要是存储，在进行ETL（数据清洗、抽取、转换、装载）操作之后的具有结构化的数据。但是数据的存储的格式没有特殊要求，可以使普通文件，也可以是溢写压缩文件等等。

hive的的与关系型数据库的对比：

Hadoop-Hive基础整理（架构以及存储）

2. hive的架构

hive的基础理论
Hadoop-Hive基础整理（架构以及存储）
hive的架构中有四个部分组成：

用户接口层：

CLI（command line interface），shell终端命令行，采用交互式使用hive命令行与hive进行交互，最常用（学习、生成、调试）
Jdbc/odbc：是hive的基于jdbc操作提供的客户端，用户（开发、运维）通过这个链接hive server服务
Web UI：通过浏览器访问hive（基本不用）

Thrift Server：语言服务：Thrift是facebook开发的一个软件框架，可以用来进行可扩展且跨语言的服务的开发，hive集成了该服务，能让不同的编程语言调用hive的接口。

Driver:底层组件：底层的四大组件完成hql查询语句从词法分析，语法分析，编译，优化，以及生成逻辑执行计划的生成。生成的逻辑执行计划存储在hdfs中，并随后由MapReduce调用执行。

 解释器：解释器的作用是将hiveSQL语句转换成抽象语法数
 编译器：编译器是将语法树编译成为逻辑执行计划
 优化器：优化器是对逻辑执行计划进行优化
 执行器：执行时调用底层的运行框架执行逻辑执行计划

执行流程就是：hiveQL，通过命令或者客户端提交，经过compiler编译器，运用metastore中的元数据进行类型检测和语法分析，生成一个逻辑方案，然后通过的优化处理，产生一个maptask程序。

元数据库 ：就是存储在hive中的数据的描述信息，通常包括：表的名字、表的列和分区以及其属性、表的属性（内部表和外部表），表的数据所在目录。
而hive有两种元数据的存储方案：

Metastore默认存储在自带的derby数据库中。缺点是：不适合多用户操作，并且数据存储目录不固定。数据库跟着hive的进入目录走，极度不方便管理。
Hive和mysql之间通过Metastore服务交互（本地或者远程）

3. hive的数据存储

hive的存储特点：

hive中所有的数据都存储在hdfs中，没有专门的数据存储格式，因为hive是读模式，可支持TezxtFile、SequenceFile（序列化）RCFile（行列结合）或者自定义格式等
只需要在创建表的时候，告诉hive数据中的列分隔符和行分隔符，hive就可以解析数据，默认的列分隔符是：（Ctrl + a 不可见字符： \x01），行分隔符是：（\n 换行符）

hive的存储结构： hive的存储结构：数据库、表、视图、分区和表数据等。数据库、表、视图、分区等等都对应hdfs上的一个目录，表数据对应hdfs对应目录下的文件。

例：
Hdfs：//Hadoop01/user/hive/warehouse/myhive.db/student/student.txt
Hdfs：//Hadoop01/user/hive/warehouse：表示hive的数据仓库
Hdfs：//Hadoop01/user/hive/warehouse/myhive.db： hive的一个数据库
Hdfs：//Hadoop01/user/hive/warehouse/myhive.db/student hive中的一个表
Hdfs：//Hadoop01/user/hive/warehouse/myhive.db/student/student.txt 数据文件

注意：当我们在创建表的时候，首先会在hdfs上的相应的目录下生成一个文件，同时在hive的元数据库中会为这个新建的表生成一条记录。

hive具体的存储结构：

数据仓库：在 HDFS 中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
表：hive的表分为内部表、外部表、分区表、分桶表，表在hdfs中的表现形式也是目录，但是不同的表之间的表现形式不同
视图：物化，hive是不会进行物化，相当于给一个sql语句建立了一个快捷方式，保存的是一个视图中的sql语句。只读，基于基表创建。
数据文件 ：表中的真实数据

推荐阅读

foreach
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
foreach
Web服务器与MySQL服务器分离配置疑问

在将Web服务器和MySQL服务器分离的情况下，是否需要在Web服务器上安装MySQL？如果安装了MySQL，如何解决PHP连接MySQL服务器时出现的连接失败问题？ ... [详细]

蜡笔小新 2024-11-13 23:06:58
export
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
java
Java代码分层详解及其应用场景

本文详细介绍了Java代码分层的基本概念和常见分层模式，特别是MVC模式。同时探讨了不同项目需求下的分层策略，帮助读者更好地理解和应用Java分层思想。 ... [详细]

蜡笔小新 2024-11-13 17:03:49
java
SQL Server系统的基本概述与核心功能解析

本文对SQL Server系统进行了基本概述，并深入解析了其核心功能。SQL Server不仅提供了强大的数据存储和管理能力，还支持复杂的查询操作和事务处理。通过MyEclipse、SQL Server和Tomcat的集成开发环境，可以高效地构建银行转账系统。在实现过程中，需要确保表单参数与后台代码中的属性值一致，同时在Servlet中处理用户登录验证，以确保系统的安全性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 15:59:32
java
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
input
Vi编辑器的工作模式有哪些？如何在不同模式间切换？

Vi编辑器是Linux系统中常用的文本编辑工具，具备三种主要工作模式：命令模式、插入模式和底行模式。用户可以通过特定的按键组合在这些模式之间进行切换，以实现不同的编辑功能。例如，在命令模式下，用户可以执行移动光标、删除文本等操作；而在插入模式下，则可以输入或修改文本内容。底行模式则用于执行保存文件、退出编辑器等命令。 ... [详细]

蜡笔小新 2024-11-08 09:03:29
client
如何在本地环境中高效连接MySQL数据库的详细指南

本指南详细介绍了在Linux环境中高效连接MySQL数据库的方法。用户可以通过安装并使用`mysql`客户端工具来实现本地连接，具体命令为：`mysql -u 用户名 -p 密码 -h 主机`。例如，使用管理员账户连接本地MySQL服务器的命令为：`mysql -u root -p pass`。此外，还提供了多种配置优化建议，以确保连接过程更加稳定和高效。 ... [详细]

蜡笔小新 2024-11-08 08:38:45
client
SQL Server 连接故障总结与解决方案分析

在使用 SQL Server 时，连接故障是用户最常见的问题之一。通常，连接 SQL Server 的方法有两种：一种是通过 SQL Server 自带的客户端工具，例如 SQL Server Management Studio；另一种是通过第三方应用程序或开发工具进行连接。本文将详细分析导致连接故障的常见原因，并提供相应的解决策略，帮助用户有效排除连接问题。 ... [详细]

蜡笔小新 2024-11-07 08:30:13
java
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
export
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
java
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
char
如何正确获取Oracle TNS_ADMIN环境变量的值

如何正确获取Oracle TNS_ADMIN环境变量的值？TNS_ADMIN 是 Oracle 客户端配置中的一个重要环境变量，用于指定网络配置文件（如 tnsnames.ora）的路径。本文将详细介绍如何在不同操作系统中准确获取该变量的值，并提供实用的命令和步骤，帮助用户确保 Oracle 客户端的网络连接配置正确无误。 ... [详细]

蜡笔小新 2024-11-04 11:59:04
char
智能制造数据综合分析与应用解决方案

在智能制造领域，生产数据通过先进的采集设备收集，并利用时序数据库或关系型数据库进行高效存储。这些数据经过处理后，通过可视化数据大屏呈现，为生产车间、生产控制中心以及管理层提供实时、精准的信息支持，助力不同应用场景下的决策优化和效率提升。 ... [详细]

蜡笔小新 2024-10-31 16:58:11
char
千万级数据表中高效去除重复记录的方法与策略

在处理历史交易表时，发现存在部分重复交易记录，需进行数据清理。为解决此问题，考虑构建一个临时表，并采用SQL Server ODBC工具进行数据的导入与导出操作，以实现高效去重。此外，建议结合索引优化和批处理技术，进一步提升数据处理效率和系统性能。 ... [详细]

蜡笔小新 2024-10-30 11:39:23

更东陌飞絮蒙蒙

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章