HIve的rcfile文件存储格式的介绍以及如何将HIve的textfile文件存储格式转化为rcfile文件格式

作者：wyl8605204 | 来源：互联网 | 2023-08-25 13:03

在当前的基于Hadoop系统的数据仓库中，数据存储格式是影响数据仓库性能的一个重要因素。Facebook于是提出了集行存储和列存储的优点于一身的RCFile文件存储格

在当前的基于Hadoop系统的数据仓库中&＃xff0c;数据存储格式是影响数据仓库性能的一个重要因素。Facebook于是提出了集行存储和列存储的优点于一身的RCFile文件存储格式&＃xff0c;据说当前在Facebook公司内部&＃xff0c;其数据仓库的文件存储格式都是RCFile&＃xff0c;另外盛大内部的数据仓库使用的也是RCFile文件存储格式。

        我们现在正在进入一个大数据时代&＃xff0c;何为“大数据”&＃xff1f;它不仅仅就是指海量的数据&＃xff0c;也包括如何高效的存储、管理和使用这写数据。在Hadoop运行环境中&＃xff0c;数据的存储格式要满足以下几个特点&＃xff1a;

        1)、数据加载数据要快&＃xff1b;

        2)、数据查询处理要快&＃xff1b;

        3)、高效的数据存储空间利用率&＃xff1b;

        4)、适应高强度的动态负载模式。

        在之前的Hadoop ecosystem中&＃xff0c;我们已经知道了基于行存储结构的TextFile和SequenceFile的文件格式&＃xff0c;也学习过Hbase的面向列存储的文件格式&＃xff0c;对于Hive数据仓库来说&＃xff0c;他们都有各自的有点个缺点&＃xff0c;今天我们来学习一个新的文件存储格式——RCFile。

        首先&＃xff0c;我们先来探讨一下基于行的存储和面向列的存储的优缺点&＃xff1a;


基于行存储的数据结构&＃xff1a;
优点是具备快速数据加载和动态负载的高适应能力&＃xff0c;因为行存储保证了相同记录的所有域都在同一个集群节点&＃xff1b;但是它不太满足快速的查询响应时间的要求&＃xff0c;特别是在当查询仅仅针对所有列中的少数几列时&＃xff0c;它就不能直接定位到所需列而跳过不需要的列&＃xff0c;由于混合着不同数据值的列&＃xff0c;行存储不易获得一个极高的压缩比&＃xff0c;行存储不易获得一个较高的压缩比。

Hadoop block中的基于行存储的示例图

面向列存储的数据结构&＃xff1a;
我们先看一下Hadoop block中面向列存储的示例&＃xff1a;

                                                          Hadoop block中的面向列存储的示例图

        在面向列的文件存储结构中&＃xff0c;列A和列B存储在同一列组&＃xff0c;而列C和列D分别存储在单独的列组。这种结构使得在查询时能够直接读取需要的列而避免不必要列的读取&＃xff0c;并且对于相似数据也可以有一个更好的压缩比。但是他的缺点也想但明显&＃xff0c;那就是由于元组重构的较高开销&＃xff0c;它并不能提供基于Hadoop系统的快速查询处理&＃xff0c;也不能保证不能保证同一记录的所有列都存储在同一集群节点之上&＃xff0c;也适应高度动态的数据负载模式。


RCFile&＃xff1a;

        结合列存储和行存储的优缺点&＃xff0c;Facebook于是提出了基于行列混合存储的RCFile&＃xff0c;它是基于SEQUENCEFILE实现的列存储格式&＃xff0c;它即满足快速数据加载和动态负载高适应的需求外&＃xff0c;也解决了SEQUENCEFILE的一些瓶颈。
该存储结构遵循的是“先水平划分&＃xff0c;再垂直划分”的设计理念。先将数据按行水平划分为行组&＃xff0c;这样一行的数据就可以保证存储在同一个集群节点&＃xff1b;然后在对行进行垂直划分。

        我们再来看一下HDFS块内RCFile方式存储的示例图&＃xff1a;

                                                             Hadoop block中的RCFile存储的示例图

        RCFile是在Hadoop HDFS之上的存储结构&＃xff0c;该结构强调&＃xff1a;

        1&＃xff09;、RCFile存储的表是水平划分的&＃xff0c;分为多个行组&＃xff0c;每个行组再被垂直划分&＃xff0c;以便每列单独存储&＃xff1b;

        2&＃xff09;、RCFile在每个行组中利用一个列维度的数据压缩&＃xff0c;并提供一种Lazy解压&＃xff08;decompression&＃xff09;技术来在查询执行时避免不必要的列解压&＃xff1b;

        3&＃xff09;、RCFile支持弹性的行组大小&＃xff0c;行组大小需要权衡数据压缩性能和查询性能两方面。

        每个HDFS block块中&＃xff0c;RCFile以行组为基本单位来组织记录。也就是说&＃xff0c;存储在一个HDFS块中的所有记录被划分为多个行组&＃xff1b;对于一张表所有行组大小都相同&＃xff0c;一个HDFS块会有一个或多个行组。

        一个行组包括三个部分&＃xff1a;

        1&＃xff09;、第一部分是行组头部的同步标识&＃xff0c;主要用于分隔HDFS块中的两个连续行组&＃xff1b;

        2&＃xff09;、第二部分是行组的元数据头部&＃xff0c;用于存储行组单元的信息&＃xff0c;包括行组中的记录数、每个列的字节数、列中每个域的字节数&＃xff1b;

        3&＃xff09;、第三部分是表格数据段&＃xff0c;即实际的列存储数据。在该部分中&＃xff0c;同一列的所有域顺序存储。从上图可以看出&＃xff0c;首先存储了列A的所有域&＃xff0c;然后存储列B的所有域等。

        RCFile的每个行组中&＃xff0c;元数据头部和表格数据段&＃xff08;每个列被独立压缩&＃xff09;分别进行压缩&＃xff0c;RCFile使用重量级的Gzip压缩算法&＃xff0c;是为了获得较好的压缩比。另外在由于Lazy压缩策略&＃xff0c;当处理一个行组时&＃xff0c;RCFile只需要解压使用到的列&＃xff0c;因此相对较高的Gzip解压开销可以减少。

RCFile具备相当于行存储的数据加载速度和负载适应能力&＃xff0c;在读数据时可以在扫描表格时避免不必要的列读取&＃xff0c;它比其他结构拥有更好的性能&＃xff0c;使用列维度的压缩能够有效提升存储空间利用率。

如何将文件转化为rcfile文件格式&＃xff1a;

&＃xff08;1&＃xff09;hive 中直接通过textfil e表进行insert转换

例如&＃xff1a;

insert overwrite table http_RCTable partition(dt&＃61;&＃39;2013-09-30&＃39;) select p_id,tm,idate,phone from tmp_testp where dt&＃61;&＃39;2013-09-30&＃39;; &＃xff08;2&＃xff09;使用mapreduce将普通的文件压缩成RCFile&＃xff0c;并且在读取RCFile文件。

推荐阅读

ip
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
version
HTTP header 介绍

HTTP(HyperTextTransferProtocol)是超文本传输协议的缩写，它用于传送www方式的数据。HTTP协议采用了请求响应模型。客服端向服务器发送一 ... [详细]

蜡笔小新 2024-11-14 09:13:00
version
优化后的标题：利用Hive分析用户最长连续登录天数

本文介绍了如何使用Hive分析用户最长连续登录天数的方法。首先对数据进行排序，然后计算相邻日期之间的差值，接着按用户ID分组并累加连续登录天数，最后求出每个用户的最大连续登录天数。此外，还探讨了该方法在其他领域的应用，如股票市场中最大连续涨停天数的分析。 ... [详细]

蜡笔小新 2024-10-27 21:47:17
ip
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
php
【漫画解析】数据已删，存储空间为何未减？揭秘背后真相

在数据迁移过程中，即使删除了原有数据，存储空间却未必会相应减少。本文通过漫画形式解析了这一现象背后的真相。具体来说，使用 `mysqldump` 命令进行数据导出时，该工具作为 MySQL 的逻辑备份工具，通过连接数据库并查询所需数据，将其转换为 SQL 语句。然而，这种操作并不会立即释放存储空间，因为数据库系统可能保留了已删除数据的碎片信息。文章进一步探讨了如何优化存储管理，以确保数据删除后能够有效回收存储空间。 ... [详细]

蜡笔小新 2024-11-04 17:11:49
ip
如何在压缩的.gz文件中高效查找特定字符串？ - Efficiently searching for specific strings within compressed .gz files

本文探讨了在不解压的情况下，如何高效地从包含文本文件的.gz压缩文件中查找特定字符串的方法。通过利用特定的工具和技术，可以在保持文件压缩状态的同时，快速定位和检索所需信息，提高处理大规模数据集时的效率和性能。 ... [详细]

蜡笔小新 2024-11-02 19:08:26
version
STAR: 转录组数据分析中的高效比对工具介绍

欢迎关注“生信修炼手册”！STAR 是一款专为 RNA-seq 数据设计的高效比对工具，以其卓越的速度和高灵敏度著称。该软件在处理大规模转录组数据时表现出色，能够显著提高比对效率和准确性。此外，GATK 推荐使用 STAR 进行预处理步骤，以确保后续分析的可靠性。 ... [详细]

蜡笔小新 2024-11-02 10:26:18
version
深入解析：RKHunter与AIDE在入侵检测中的应用与优势

本文深入探讨了RKHunter与AIDE在入侵检测领域的应用及其独特优势。通过对比分析，详细阐述了这两种工具在系统完整性验证、恶意软件检测及日志文件监控等方面的技术特点和实际效果，为安全管理人员提供了有效的防护策略建议。 ... [详细]

蜡笔小新 2024-10-30 11:50:20
ip
深入浅出解析HTTP协议的核心功能与应用

前言——协议是指预先设定的通信规则，确保双方能够按照既定标准进行有效沟通，从而实现准确的信息交换。例如，驯兽师通过拍手使动物坐下，这实际上是一种预设的协议。本文将详细探讨HTTP协议的核心功能及其广泛应用，解析其在现代网络通信中的重要作用。 ... [详细]

蜡笔小新 2024-10-26 18:47:54
ip
网站前端开发的核心理念与必备技能解析

网站前端开发的核心理念与必备技能解析 ... [详细]

蜡笔小新 2024-10-24 10:26:17
version
如何优化highlight高亮markdown

简介最近一直在纯手工搭建自己的个人博客，其中用到了 ... [详细]

蜡笔小新 2024-10-21 12:31:43
version
hive和mysql的区别是什么[mysql教程]

hive和mysql的区别有：1、查询语言不同，hive是hql语言，MySQL是sql语句；2、数据存储位置不同，hive把数据存储在hdfs上，MySQL把数据存储在自己的系统 ... [详细]

蜡笔小新 2024-10-17 05:28:28
version
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
java
hadoop3.1.2 first programdefault wordcount (Mac)

hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]

蜡笔小新 2024-10-15 11:11:55

wyl8605204

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章