Hive和JavaAPI操作HBase实践

作者：菠萝和尚 | 来源：互联网 | 2023-08-09 08:41

本博客采用创作共用版权协议,要求署名、非商业用途和保持一致.转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议.由于五一假期,成文较为简略,一些细节部分并没有详细介绍

本博客采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本博客文章必须也遵循署名-非商业用途-保持一致的创作共用协议.

由于五一假期, 成文较为简略, 一些细节部分并没有详细介绍, 如有需求, 可以参考之前几篇相当MapRuduce主题的博文.

HBase实践

修改MapReduce阶段倒排索引的信息通过文件输出, 而每个词极其对应的平均出现次数信息写入到Hbase的表Wuxia中(具体的要求可以查看之前的博文MapReduce实战之倒排索引)
编写Java程序, 遍历上一步保存在HBase中的表, 并把表格的内容保存到本地文件中.
Hive使用Hive Shell命令行创建表(表名: Wuxia, (word string, count double)), 导入平均出现次数的数据
- 查询出现次数大于300的词语
- 查询前100个出现次数最多的数

import java.io.IOException; import java.nio.ByteBuffer; import java.util.StringTokenizer; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.Reducer.Context; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.input.FileSplit; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.util.GenericOptionsParser; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.hadoop.hbase.HTableDescriptor; import org.apache.hadoop.hbase.client.HBaseAdmin; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.mapreduce.TableReducer; import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil; import org.apache.hadoop.hbase.mapreduce.TableOutputFormat; import org.apache.hadoop.hbase.mapreduce.TableReducer; import org.apache.hadoop.hbase.io.*; import org.apache.hadoop.hbase.util.Bytes; public class InvertedIndexHbase { //创建表并进行简单配置 public static void createHBaseTable(Configuration conf, String tablename) throws IOException { // HBaseConfiguration cOnfiguration= new HBaseConfiguration(); HBaseAdmin admin = new HBaseAdmin(conf); if (admin.tableExists(tablename)) { //如果表已经存在 System.out.println("table exits, Trying recreate table!"); admin.disableTable(tablename); admin.deleteTable(tablename); } HTableDescriptor htd = new HTableDescriptor(tablename); //row HColumnDescriptor col = new HColumnDescriptor("content"); //列族 htd.addFamily(col); //创建列族 System.out.println("Create new table: " + tablename); admin.createTable(htd); //创建表 } //map函数不变 public static class Map extends Mapper { private Text keyWord = new Text(); private Text valueDocCount = new Text(); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { //获取文档 FileSplit fileSplit = (FileSplit)context.getInputSplit(); String fileName = fileSplit.getPath().getName(); StringTokenizer itr = new StringTokenizer(value.toString()); while(itr.hasMoreTokens()) { keyWord.set(itr.nextToken() + ":" + fileName); // key为key#doc valueDocCount.set("1"); // value为词频 context.write(keyWord, valueDocCount); } } } //combine函数不变 public static class InvertedIndexCombiner extends Reducer { private Text wordCount = new Text(); private Text wordDoc = new Text(); //将key-value转换为word-doc:词频 public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { int sum = 0; for (Text value : values) { sum += Integer.parseInt(value.toString()); } int splitIndex = key.toString().indexOf(":"); // 找到:的位置 wordDoc.set(key.toString().substring(0, splitIndex)); //key变为单词 wordCount.set(sum + ""); //value变为doc:词频 context.write(wordDoc, wordCount); } } //reduce将数据存入HBase public static class Reduce extends TableReducer { private Text temp = new Text(); public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { int sum = 0; int count = 0; Iterator it = values.iterator(); //形成最终value for(;it.hasNext();) { count++; temp.set(it.next()); sum += Integer.parseInt(temp.toString()); } float averageCount = (float)sum / (float)count; FloatWritable average = new FloatWritable(averageCount); //加入row为key.toString() Put put = new Put(Bytes.toBytes(key.toString())); //Put实例, 每一词存一行 //列族为content, 列修饰符为average表示平均出现次数, 列值为平均出现次数 put.add(Bytes.toBytes("content"), Bytes.toBytes("average"), Bytes.toBytes(average.toString())); context.write(NullWritable.get(), put); } } public static void main(String[] args) throws Exception { String tablename = "Wuxia"; Configuration cOnf= HBaseConfiguration.create(); conf.set(TableOutputFormat.OUTPUT_TABLE, tablename); createHBaseTable(conf, tablename); Job job = Job.getInstance(conf, "Wuxia"); //配置作业名 //配置作业的各个类 job.setJarByClass(InvertedIndexHbase.class); job.setMapperClass(Map.class); job.setCombinerClass(InvertedIndexCombiner.class); job.setReducerClass(Reduce.class); // TableMapReduceUtil.initTableReducerJob(tablename, Reduce.class, job); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); job.setOutputFormatClass(TableOutputFormat.class); FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } }

然后在Hadoop执行操作.

$ hdfs dfs -mkdir /user $ hdfs dfs -mkdir /user/input $ hdfs dfs -put /Users/andrew_liu/Java/Hadoop/wuxia_novels/* /user/input $ hadoop jar WorkSpace/InvertedIndexHbase.jar InvertedIndexHbase /user/input output1

执行成功结束后, 打开HBase Shell的操作

$ hbase shell > scan 'Wuxia'HBase中数据写入本地文件

import java.io.FileWriter; import java.io.IOException; import java.io.FileWriter; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.PrintWriter; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.KeyValue; import org.apache.hadoop.hbase.client.HTable; import org.apache.hadoop.hbase.client.Result; import org.apache.hadoop.hbase.client.HBaseAdmin; import org.apache.hadoop.hbase.client.Put; import org.apache.hadoop.hbase.client.Scan; import org.apache.hadoop.hbase.client.ResultScanner; import org.apache.hadoop.hbase.util.Bytes; public class Hbase2Local { static Configuration cOnf= HBaseConfiguration.create(); public static void getResultScan(String tableName, String filePath) throws IOException { Scan scan = new Scan(); ResultScanner rs = null; HTable table = new HTable(conf, Bytes.toBytes(tableName)); try { rs = table.getScanner(scan); FileWriter fos = new FileWriter(filePath, true); for (Result r : rs) { // System.out.println("获得rowkey: " + new String(r.getRow())); for (KeyValue kv : r.raw()) { // System.out.println("列: " + new String(kv.getFamily()) + " 值: " + new String(kv.getValue())); String s = new String(r.getRow() + "\t" + kv.getValue() + "\n"); fos.write(s); } } fos.close(); } catch (IOException e) { // TODO: handle exception e.printStackTrace(); } rs.close(); } public static void main(String[] args) throws Exception { String tableName = "Wuxia"; String filePath = "/Users/andrew_liu/Java/WorkSpace/Hbaes2Local/bin/Wuxia"; getResultScan(tableName, filePath); } }Hive实践

将本地数据导入Hive

hive> create table Wuxia(word string, count double) row format delimited fields terminated by '\t' stored as textfile; Time taken: 0.049 seconds hive> load data local inpath '/Users/andrew_liu/Downloads/Wuxia.txt' into table Wuxia; Loading data to table default.wuxia Table default.wuxia stats: [numFiles=1, totalSize=2065188] OK Time taken: 0.217 seconds

输出出现次数大于300的词语

select * from Wuxia order by count desc limit 100;

推荐阅读

java
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
java
动态壁纸 LiveWallPaper：让您的桌面栩栩如生（第二篇）

在本文中，我们将继续探讨如何开发动态壁纸 LiveWallPaper，使您的桌面更加生动有趣。作为 2010 年 Google 暑期大学生博客分享大赛 Android 篇的一部分，我们将详细介绍 Ed Burnette 的《Hello, Android》第三版中的相关内容，并分享一些实用的开发技巧和经验。通过本篇文章，您将了解到如何利用 Android SDK 创建引人入胜的动态壁纸，提升用户体验。 ... [详细]

蜡笔小新 2024-11-06 02:00:32
java
HBase Java API 进阶：过滤器详解与应用实例

本文详细探讨了HBase 1.2.6版本中Java API的高级应用，重点介绍了过滤器的使用方法和实际案例。首先，文章对几种常见的HBase过滤器进行了概述，包括列前缀过滤器（ColumnPrefixFilter）和时间戳过滤器（TimestampsFilter）。此外，还详细讲解了分页过滤器（PageFilter）的实现原理及其在大数据查询中的应用场景。通过具体的代码示例，读者可以更好地理解和掌握这些过滤器的使用技巧，从而提高数据处理的效率和灵活性。 ... [详细]

蜡笔小新 2024-11-05 15:08:18
java
Vuforia 开发指南：第二章环境配置与搭建

本章节详细介绍了如何在Vuforia官网上完成账号注册及环境配置。首先，访问Vuforia官方网站并点击“Register”按钮，按照提示填写必要的个人信息。提交表单后，系统将验证信息并创建账户。接下来，用户需要下载并安装Vuforia开发工具，确保开发环境的顺利搭建。此外，还提供了详细的配置步骤和常见问题的解决方案，帮助开发者快速上手。 ... [详细]

蜡笔小新 2024-11-09 18:05:33
char
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
uri
Android系统支持的图像格式及其版本兼容性（涵盖存储、HTTP传输、相机功能、SparseArray应用与系统升级）

本文探讨了Android系统中支持的图像格式及其在不同版本中的兼容性问题，重点涵盖了存储、HTTP传输、相机功能以及SparseArray的应用。文章详细分析了从Android 10 (API 29) 到Android 11 的存储规范变化，并讨论了这些变化对图像处理的影响。此外，还介绍了如何通过系统升级和代码优化来解决版本兼容性问题，以确保应用程序在不同Android版本中稳定运行。 ... [详细]

蜡笔小新 2024-11-05 14:02:29
java
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
java
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
java
项目开发中不可或缺的Linux命令详解

在项目开发过程中，掌握一些关键的Linux命令至关重要。例如，使用 `Ctrl+C` 可以立即终止当前正在执行的命令；通过 `ps -ef | grep ias` 可以查看特定服务的进程信息，包括进程ID（PID）和JVM参数（如内存分配和远程连接端口）；而 `netstat -apn | more` 则用于显示网络连接状态，帮助开发者监控和调试网络服务。这些命令不仅提高了开发效率，还能有效解决运行时的各种问题。 ... [详细]

蜡笔小新 2024-11-03 13:59:27
select
如何在Hive中合理配置Map和Reduce任务数量以优化不同场景下的性能表现

在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量，分析了当输入数据超过128MB时是否会自动拆分，以及Map数量是否越多越好的问题。通过实际案例和实验数据，本文提供了具体的配置建议，帮助用户在不同场景下实现最佳性能。 ... [详细]

蜡笔小新 2024-10-31 14:33:41
java
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
select
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
function
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
java
org.apache.hadoop.mapreduce.lib.input.MultipleInputs.addInputPath()方法的使用及代码示例

本文整理了Java中org.apache.hadoop.mapreduce.lib.input.MultipleInputs.addInputPath()方法的一些代码 ... [详细]

蜡笔小新 2024-09-28 10:57:44
java
hive和mysql的区别是什么[mysql教程]

hive和mysql的区别有：1、查询语言不同，hive是hql语言，MySQL是sql语句；2、数据存储位置不同，hive把数据存储在hdfs上，MySQL把数据存储在自己的系统 ... [详细]

蜡笔小新 2024-10-17 05:28:28

菠萝和尚

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章