读写hive_重要|mr使用hcatalog读写hive表

作者：000冷000 | 来源：互联网 | 2023-10-12 11:28

企业中，由于领导们的要求，hive中有数据存储格式很多时候是会变的，比如为了优化将tsv，csv格式改为了parquet或者

企业中&＃xff0c;由于领导们的要求&＃xff0c;hive中有数据存储格式很多时候是会变的&＃xff0c;比如为了优化将tsv&＃xff0c;csv格式改为了parquet或者orcfile。那么这个时候假如是mr作业读取hive的表数据的话&＃xff0c;我们又要重新去写mr并且重新部署。这个时候就很蛋疼。hcatalog帮我们解决了这个问题&＃xff0c;有了它我们不用关心hive中数据的存储格式。详细信息请仔细阅读本文。本文主要是讲mapreduce使用HCatalog读写hive表。hcatalog使得hive的元数据可以很好的被其它hadoop工具使用&＃xff0c;比如pig&＃xff0c;mr和hive。HCatalog的表为用户提供了(HDFS)中数据的关系视图&＃xff0c;并确保用户不必担心他们的数据存储在何处或采用何种格式&＃xff0c;因此用户无需知道数据是否以RCFile格式存储&＃xff0c; 文本文件或sequence 文件。它还提供通知服务&＃xff0c;以便在仓库中有新数据可用时通知工作流工具(如Oozie)。HCatalog提供HCatInputFormat / HCatOutputFormat&＃xff0c;使MapReduce用户能够在Hive的数据仓库中读/写数据。它允许用户只读取他们需要的表和列的分区。返回的记录格式是方便的列表格式&＃xff0c;用户无需解析它们。下面我们举个简单的例子。在mapper类中&＃xff0c;我们获取表schema并使用此schema信息来获取所需的列及其值。下面是map类。

public class onTimeMapper extends Mapper { &＃64;Override protected void map(WritableComparable key, HCatRecord value, org.apache.hadoop.mapreduce.Mapper.Context context) throws IOException, InterruptedException { // Get table schema HCatSchema schema &＃61; HCatBaseInputFormat.getTableSchema(context); Integer year &＃61; new Integer(value.getString("year", schema)); Integer month &＃61; new Integer(value.getString("month", schema)); Integer DayofMonth &＃61; value.getInteger("dayofmonth", schema); context.write(new IntPair(year, month), new IntWritable(DayofMonth)); }}

‍

在reduce类中&＃xff0c;会为将要写入hive表中的数据创建一个schema。

public class onTimeReducer extends Reducer {public void reduce (IntPair key, Iterable value, Context context) throws IOException, InterruptedException{ int count &＃61; 0; // records counter for particular year-month for (IntWritable s:value) { count&＃43;&＃43;; } // define output record schema List columns &＃61; new ArrayList(3); columns.add(new HCatFieldSchema("year", HCatFieldSchema.Type.INT, "")); columns.add(new HCatFieldSchema("month", HCatFieldSchema.Type.INT, "")); columns.add(new HCatFieldSchema("flightCount", HCatFieldSchema.Type.INT,"")); HCatSchema schema &＃61; new HCatSchema(columns); HCatRecord record &＃61; new DefaultHCatRecord(3); record.setInteger("year", schema, key.getFirstInt()); record.set("month", schema, key.getSecondInt()); record.set("flightCount", schema, count); context.write(null, record);}}最后&＃xff0c;创建driver类&＃xff0c;并且表明输入输出schema和表信息。

public class onTimeDriver extends Configured implements Tool{ private static final Log log &＃61; LogFactory.getLog( onTimeDriver.class ); public int run( String[] args ) throws Exception{ Configuration conf &＃61; new Configuration(); Job job &＃61; new Job(conf, "OnTimeCount"); job.setJarByClass(onTimeDriver.class); job.setMapperClass(onTimeMapper.class); job.setReducerClass(onTimeReducer.class); HCatInputFormat.setInput(job, "airline", "ontimeperf"); job.setInputFormatClass(HCatInputFormat.class); job.setMapOutputKeyClass(IntPair.class); job.setMapOutputValueClass(IntWritable.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(DefaultHCatRecord.class); job.setOutputFormatClass(HCatOutputFormat.class); HCatOutputFormat.setOutput(job, OutputJobInfo.create("airline", "flight_count", null)); HCatSchema s &＃61; HCatOutputFormat.getTableSchema(job); HCatOutputFormat.setSchema(job, s); return (job.waitForCompletion(true)? 0:1); } public static void main(String[] args) throws Exception{ int exitCode &＃61; ToolRunner.run(new onTimeDriver(), args); System.exit(exitCode);}}

‍

当然&＃xff0c;在跑上面写的代码之前&＃xff0c;应该先在hive中创建输出表。

create table airline.flight_count(Year INT ,Month INT ,flightCount INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY &＃39;,&＃39;STORED AS TEXTFILE;可能会引起错误的地方是没有设置$HIVE_HOME.推荐阅读&＃xff1a;Hive性能优化(全面)Hive鲜为人知的宝石-Hooks浪尖以案例聊聊spark 3.0 sql的动态分区裁剪

推荐阅读

io
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
io
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
io
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
io
基于决策树的性别分类分析

本文旨在探讨如何利用决策树算法实现对男女性别的分类。通过引入信息熵和信息增益的概念，结合具体的数据集，详细介绍了决策树的构建过程，并展示了其在实际应用中的效果。 ... [详细]

蜡笔小新 2024-12-20 11:57:25
bit
400string(99) php,PHP: 字符串Manual

addcslashes—以C语言风格使用反斜线转义字符串中的字符addslashes—使用反斜线引用字符串bin2hex—函数把包含数据的二进制字符串转换为十六进制值chop—rt ... [详细]

蜡笔小新 2024-12-15 12:31:43
select
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
select
Hive 创建表语法详解

本文详细介绍了在Hive中创建表的基本语法，包括临时表、外部表的创建方法，以及如何设置表的各种属性和约束条件。 ... [详细]

蜡笔小新 2024-12-04 14:16:49
format
Python 实现微信支付集成

本文详细介绍如何使用 Python 集成微信支付的三种主要方式：Native 支付、APP 支付和 JSAPI 支付。每种方式适用于不同的应用场景，如 PC 网站、移动端应用和公众号内支付等。 ... [详细]

蜡笔小新 2024-12-20 17:39:09
select
当unique验证运到图片上传时

2019独角兽企业重金招聘Python工程师标准model：public$imageFile;publicfunctionrules(){return[[[na ... [详细]

蜡笔小新 2024-12-20 10:19:12
select
java文本编辑器,java文本编辑器设计思路

java文本编辑器,java文本编辑器设计思路 ... [详细]

蜡笔小新 2024-12-19 21:02:48
io
主板市盈率、市净率及股息率的自动化抓取

本文介绍了如何通过Python脚本自动从中国指数有限公司网站抓取主板的市盈率、市净率和股息率等关键财务指标，并将这些数据存储到CSV文件中。涉及的技术包括网页解析、正则表达式以及异常处理。 ... [详细]

蜡笔小新 2024-12-15 14:26:17
web
深入理解Vue.js：从入门到精通

本文详细介绍了Vue.js的基础知识、安装方法、核心概念及实战案例，帮助开发者全面掌握这一流行的前端框架。 ... [详细]

蜡笔小新 2024-12-22 11:07:54
format
Hive中Map任务数量的确定方法

本文探讨了Hive作业中Map任务数量的确定方式，主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数，可以有效控制Map任务的数量，进而优化Hive作业的性能。 ... [详细]

蜡笔小新 2024-12-19 11:36:41
io
前文|功能型_品读鸿蒙HDF架构

前文|功能型_品读鸿蒙HDF架构 ... [详细]

蜡笔小新 2024-12-15 11:21:42
io
Alluxio 1.5.0 版本发布：增强功能与优化

Alluxio 1.5.0 开源版本引入了多项新特性和改进，旨在提升数据访问速度和系统互操作性。 ... [详细]

蜡笔小新 2024-12-10 10:47:59

000冷000

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章