使用Hive处理WordCount

作者：留心6_136 | 来源：互联网 | 2023-06-07 16:04

一.在Hive中创建存放要处理的数据的表$hive>createtabletextlines(linestring)导入数据：$hive>loaddatainpath’tm

一.在Hive中创建存放要处理的数据的表 $hive> create table textlines(line string)
导入数据： $hive> load data inpath ’tmp/input’ overwrite into table textlines; 如果想从本地导入，可以使用这个load data local inpath '...',这里的就会是这样的/tmp/input/wordcount。
查看是否导入成功： $hive> select * from texlines;
二.用HIVE实现map/reduce的计算
下面是HIVE编程指南给出的word count HQL: SELECT word,count(1) AS count FROM (SELECT explode(split(,'[ \t]+') ) AS word FROM docs ) w GROUP BY word ORDER BY word;
我讲上面语句拆分成两条语句：
SELECT explode(split(line,’\s’)) AS word FROM docs； SELECT word,count(1) FROM w GROUP BY word ORDER BY word;
所以我先创建一个words表，存放第一条查询的结果： $hive> create table words(word STRING); $hive> insert overwrite table words select explode(split(line,'\s’)) word from textlines;
注：关键语句是select explode(split(line,'\s’)) 这句将处罚Hadoop进行MapReduce计算，explode()函数表示将字符串分割为数组，\s是正则，表示空白字符，split(line,'\s’)就是将line(textiles表的字段)按照正则\s分割，然后explode函数将KEY相同的value存在数组里。这HQL条语句相当于Hadoop中的Map函数。
现在来处理第二条HQL语句：SELECT word,count(1) FROM w GROUP BY word ORDER BY word; $hive> SELECT word,count(1) FROM words GROUP BY word ORDER BY word; 注：这条语句相当于Hadoop中的reduce函数。

三.将我们处理获得的结果导出： $hive> INSERT OVERWRITE LOCAL DIRECTORY ‘/tmp/wordcount_result’ SELECT word,count(1) FROM words GROUP BY word ORDER BY word; LOCAL去掉表示导出到HDFS的目录；
下面就用Sqoop将HDFS上的结果存储到mysql上了

推荐阅读

instance
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
int
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
int
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
int
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
copy
如何在MySQL中有效运用EXPLAIN命令进行查询优化

本文详细介绍了在MySQL中如何高效利用EXPLAIN命令进行查询优化。通过实例解析和步骤说明，文章旨在帮助读者深入理解EXPLAIN命令的工作原理及其在性能调优中的应用，内容通俗易懂且结构清晰，适合各水平的数据库管理员和技术人员参考学习。 ... [详细]

蜡笔小新 2024-11-10 15:18:39
copy
sh cca175problem03evolveavroschema.sh

sh cca175problem03evolveavroschema.sh ... [详细]

蜡笔小新 2024-10-25 14:18:50
jsp
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
php
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
int
在什么情况下MySQL的可重复读隔离级别会导致幻读现象？

在什么情况下MySQL的可重复读隔离级别会导致幻读现象？ ... [详细]

蜡笔小新 2024-11-11 19:42:44
byte
MySQL Decimal 类型的最大值解析及其在数据处理中的应用艺术

在关系型数据库中，表的设计与SQL语句的编写对性能的影响至关重要，甚至可占到90%以上。本文将重点探讨MySQL中Decimal类型的最大值及其在数据处理中的应用技巧，通过实例分析和优化建议，帮助读者深入理解并掌握这一重要知识点。 ... [详细]

蜡笔小新 2024-11-11 19:36:19
format
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
php
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
int
PHP实现MySQL分页查询功能优化与实践

本文探讨了在PHP中实现MySQL分页查询功能的优化方法与实际应用。通过详细分析分页查询的常见问题，提出了多种优化策略，包括使用索引、减少查询字段、合理设置缓存等。文章还提供了一个具体的示例，展示了如何通过优化模型加载和分页参数设置，显著提升查询性能和用户体验。 ... [详细]

蜡笔小新 2024-11-11 12:46:36
instance
解决Android EditText中TextWatcher的onTextChanged方法频繁触发问题

【问题】在Android开发中，当为EditText添加TextWatcher并实现onTextChanged方法时，会遇到一个问题：即使只对EditText进行一次修改（例如使用删除键删除一个字符），该方法也会被频繁触发。这不仅影响性能，还可能导致逻辑错误。本文将探讨这一问题的原因，并提供有效的解决方案，包括使用Handler或计时器来限制方法的调用频率，以及通过自定义TextWatcher来优化事件处理，从而提高应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-11-10 12:50:42
instance
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37

留心6_136

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章