当前位置: 开发笔记 > 运维 > 正文

hive存储格式

作者：mobiledu2502906891 | 来源：互联网 | 2018-05-27 01:35

hive文件的存储式：textfile、sequencefile、rcfile、自定义式1.textfiletextfile,即是文本式，默认式，数据不做压缩，磁盘开销大，数据解析开销大对应hiveAPI为org.apache.hadoop.mapred.TextInputFormat和org.apache.hadoop.hive.ql.io.HiveI

hive文件的存储式：textfile、sequencefile、 rcfile、自定义式 1 . textfile textfile, 即是文本式，默认式，数据不做压缩，磁盘开销大，数据解析开销大对应hive API为 org.apache.hadoop.mapred.TextInputFormat 和 org.apache.hadoop.hive.ql.io.HiveI

hive文件的存储&＃26684;式：textfile、sequencefile、rcfile、自定义&＃26684;式

1. textfile
textfile,即是文本&＃26684;式，默认&＃26684;式，数据不做压缩，磁盘开销大，数据解析开销大

对应hive API为org.apache.hadoop.mapred.TextInputFormat和org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat。

2.sequencefile
sequencefile，是Hadoop提供的一种二进制文件&＃26684;式是Hadoop支持的标准文件&＃26684;式（其他生态系统并不适用），
可以直接将对序列化到文件中,所以sequencefile文件不能直接查看，可以通过Hadoop fs -text查看。
具有使用方便，可分割，可压缩，可进行切片。压缩支持NONE, RECORD, BLOCK(优先)等&＃26684;式，可进行切片。

对应hive API为org.apache.hadoop.mapred.SequenceFileInputFormat和org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat。

3.rcfile
大多数的Hadoop和hive存储是行式储存，在大多数环境下比较高效，因为大多数表具有的字段个数都不会很大，
且文件按块压缩对于需要处理重复数据的情况比较高效，同时处理和调试工具(more、head、awk)都能很好的适应行式存储的数据。
但当需要操作的表有成百上千个字段，而操作只有一小部分字段时，这往往会造成很大的浪费。
而此时若是采取列式存储只操作需要的列便可以大大提高性能。

rcfile 是一种行列存储相结合的存储方式，先将数据按行分块再按列式存储，保证同一条记录在一个块上，避免读取多个块，
有利于数据压缩和快速进行列存储。

对应hive API为org.apache.hadoop.hive.ql.io.RCFileInputFormat和org.apache.hadoop.hive.ql.io.RCFileOutputFormat。

行存储

基于Hadoop系统行存储结构的优点在于快速数据加载和动态负载的高适应能力，这是因为行存储保证了相同记录的所有域

都在同一个集群节点，即同一个HDFS块。不过，行存储的缺点也是显而易见的，它不能支持快速查询处理，

因为当查询仅仅针对多列表中的少数几列时，它不能跳过不必要的列读取；此外由于混合着不同数据&＃20540;的列，

行存储不易获得极高的压缩比，即空间利用率不易大幅提高。尽管通过熵编码和利用列相关性能够获得一个较好的压缩比，

但是复杂数据存储实现会导致解压开销增大。

下图显示了在HDFS上按照列组存储表&＃26684;的例子。在图中，列A和列B存储在同一列组，而列C和列D分别存储在单独的列组。

查询时列存储能够避免读不必要的列，并且压缩一个列中的相&＃20284;数据能够达到较高的压缩比。然而由于元组重构的较高开销，

它并不能提供基于Hadoop系统的快速查询处理。列存储不能保证同一记录的所有域都存储在同一集群节点，

记录的4个域存储在位于不同节点的3个HDFS块中。因此，记录的重构将导致通过集群节点网络的大量数据传输。

尽管预先分组后，多个列在一起能够减少开销，但是对于高度动态的负载模式，它并不具备很好的适应性。

除非所有列组根据可能的查询预先创建，否则对于一个查询需要一个不可预知的列组合，一个记录的重构或许需要2个或

多个列组。再者由于多个组之间的列交叠，列组可能会创建多余的列数据存储，这导致存储利用率的降低。

下图是一个 HDFS块内RCFile方式存储的例子。RCFile（Record Columnar File）存储结构遵循的是“先水平划分，

再垂直划分”的设计理念，它结合了行存储和列存储的优点：首先，RCFile保证同一行的数据位于同一节点，

因此元组重构的开销很低；其次，像列存储一样，RCFile能够利用列维度的数据压缩，并且能跳过不必要的列读取。

四.ORCfile
orcfile是对rcfile的优化，可以提高hive的读、写、数据处理性能，提供更高的压缩效率。和RCFile&＃26684;式相比，

ORC File&＃26684;式有以下优点：
(1)、每个task只输出单个文件，这样可以减少NameNode的负载；
(2)、支持各种复杂的数据类型，比如： datetime, decimal, 以及一些复杂类型(struct, list, map, and union)；
(3)、在文件中存储了一些轻量级的索引数据；
(4)、基于数据类型的块模式压缩:

1).integer类型的列用行程长度编码(run-length encoding);

2).String类型的列用字典编码(dictionaryencoding)；
(5)、用多个互相独立的RecordReaders并行读相同的文件；
(6)、无需扫描markers就可以分割文件；
(7)、绑定读写所需要的内存；
(8)、metadata的存储是用 Protocol Buffers的，所以它支持添加和删除一些列。
ORCFile文件结构
ORC File包含一组组的行数据，称为stripes，除此之外，ORCFile的file footer还包含一些额外的辅助信息。

在ORC File文件的最后，
有一个被称为postscript的区，它主要是用来存储压缩参数及压缩页脚的大小。
在默认情况下，一个stripe的大小为250MB。大尺寸的stripes使得从HDFS读数据更高效。
　在file footer里面包含了该ORC File文件中stripes的信息，每个stripe中有多少行，以及每列的数据类型。
当然，它里面还包含了列级别的一些聚合的结果，比如：count, min, max, and sum。下图显示出可ORC File文件结构：

Stripe结构

　从上图我们可以看出，每个Stripe都包含index data、rowdata以及stripe footer。Stripefooter包含流位置的目录；
Row data在表扫描的时候会用到。Index data包含每列的最大和最小&＃20540;以及每列所在的行。行索引里面提供了偏移量，
它可以跳到正确的压缩块位置。具有相对频繁的行索引，使得在stripe中快速读取的过程中可以跳过很多行，

尽管这个stripe的大小很大。
在默认情况下，最大可以跳过10000行。拥有通过过滤谓词而跳过大量的行的能力，你可以在表的 secondarykeys 进行排序，
从而可以大幅减少执行时间。比如你的表的主分区是交易日期，那么你可以对次分区（state、zip code以及last name）

进行排序。

五.自定义&＃26684;式

若当前数据文件&＃26684;式不能被当前hive所识别时，可以自定义文件&＃26684;式，

用户可通过实现InputFormat和OutputFormat来自定义输入输出&＃26684;式。

六.总结

textfile 存储空间消耗比较大，并且压缩的text 无法分割和合并查询的效率最低,可以直接存储，加载数据的速度最高

sequencefile 存储空间消耗最大,压缩的文件可以分割和合并查询效率高，需要通过text文件转化来加载

orcfile, rcfile存储空间最小，查询的效率最高，需要通过text文件转化来加载，加载的速度最低.

orcfile, rcfile较有优势，orcfile,rcfile具备相当于行存储的数据加载和负载适应能力，扫描表时避免不必要的列读取，
拥有比其他结构更好的性能，而使用列维度的压缩，能有效提升存储空间利用率。

但orcfile, rcfile数据加载是性能损失较大，但由于hdfs一次写入多次读写，所以损失可以接受。

SequenceFile,ORCFile(ORC)，rcfile&＃26684;式的表不能直接从本地文件导入数据，数据要先导入到textfile&＃26684;式的表中，
然后再从textfile表中导入到SequenceFile,ORCFile(ORC)，rcfile表中。

推荐阅读

apache
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
apache
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
linux
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
apache
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
apache
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
apache
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
apache
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43
apache
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
apache
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
apache
Hive中Map任务数量的确定方法

本文探讨了Hive作业中Map任务数量的确定方式，主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数，可以有效控制Map任务的数量，进而优化Hive作业的性能。 ... [详细]

蜡笔小新 2024-12-19 11:36:41
apache
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
apache
全面解析Hive：数据仓库工具概览

本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念，包括其基本功能、使用理由、特点以及与Hadoop的关系。同时，文章还探讨了Hive相较于传统关系型数据库的不同之处，并展望了Hive的发展前景。 ... [详细]

蜡笔小新 2024-12-05 10:44:18
apache
HBase RegionServer 故障分析与解决

本文详细记录了一次 HBase RegionServer 异常宕机的情况，包括具体的错误信息和可能的原因分析。通过此案例，探讨了如何有效诊断并解决 HBase 中常见的 RegionServer 挂起问题。 ... [详细]

蜡笔小新 2024-12-01 16:21:27
apache
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
shell
Linux 文件权限与用户配置管理

本文详细介绍了 Linux 系统中用户、组和文件权限的设置方法，包括基本权限（读、写、执行）、特殊权限（SUID、SGID、Sticky Bit）以及相关配置文件的使用。 ... [详细]

蜡笔小新 2024-12-20 09:27:23

mobiledu2502906891

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章