当前位置: 开发笔记 > 后端 > 正文

使用sqoop将mysql数据导入到hadoop_MySQL

作者：罗然8_907 | 来源：互联网 | 2017-05-12 16:11

hadoop的安装配置这里就不讲了。Sqoop的安装也很简单。完成sqoop的安装后，可以这样测试是否可以连接到mysql(注意：mysql的jar包要放到SQOOP_HOMElib下)：sqooplist-databases--connectjdbc:mysq

hadoop的安装配置这里就不讲了。

Sqoop的安装也很简单。完成sqoop的安装后，可以这样测试是否可以连接到mysql(注意：mysql的jar包要放到 SQOOP_HOME/lib 下)： sqoop list-databases --connect jdbc:mysql://192.168.1.109:3306/ --username root --password 19891231 结果如下

即说明sqoop已经可以正常使用了。下面，要将mysql中的数据导入到hadoop中。我准备的是一个300万条数据的身份证数据表：

先启动hive（使用命令行：hive 即可启动）然后使用sqoop导入数据到hive： sqoop import --connect jdbc:mysql://192.168.1.109:3306/hadoop --username root --password 19891231 --table test_sfz --hive-import sqoop 会启动job来完成导入工作。

完成导入用了2分20秒，还是不错的。在hive中可以看到刚刚导入的数据表：

我们来一句sql测试一下数据： select * from test_sfz where id <10;

可以看到，hive完成这个任务用了将近25秒，确实是挺慢的（在mysql中几乎是不费时间），但是要考虑到hive是创建了job在hadoop中跑，时间当然多。

接下来，我们会对这些数据进行复杂查询的测试：我机子的配置如下：

hadoop 是运行在虚拟机上的伪分布式，虚拟机OS是ubuntu12.04 64位，配置如下：

TEST 1 计算平均年龄

测试数据：300.8 W 1. 计算广东的平均年龄 mysql：select (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz where address like &＃39;广东%&＃39;; 用时： 0.877s hive：select (sum(year(&＃39;2014-10-01&＃39;) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz where address like &＃39;广东%&＃39;; 用时：25.012s 2. 对每个城市的的平均年龄进行从高到低的排序 mysql：select address, (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz GROUP BY address order by ageAvge desc; 用时：2.949s hive：select address, (sum(year(&＃39;2014-10-01&＃39;) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz GROUP BY address order by ageAvge desc; 用时：51.29s 可以看到，在耗时上面，hive的增长速度较mysql慢。

TEST 2

测试数据：1200W mysql 引擎： MyISAM（为了加快查询速度）导入到hive：

1. 计算广东的平均年龄 mysql：select (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like &＃39;广东%&＃39;; 用时： 5.642s hive：select (sum(year(&＃39;2014-10-01&＃39;) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like &＃39;广东%&＃39;; 用时：168.259s 2. 对每个城市的的平均年龄进行从高到低的排序 mysql：select address, (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 GROUP BY address order by ageAvge desc; 用时：11.964s hive：select address, (sum(year(&＃39;2014-10-01&＃39;) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 GROUP BY address order by ageAvge desc; 用时：311.714s

TEST 3

测试数据：2000W mysql 引擎： MyISAM（为了加快查询速度）导入到hive：

（这次用的时间很短！可能是因为TEST2中的导入时，我的主机在做其他耗资源的工作..） 1. 计算广东的平均年龄 mysql：select (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like &＃39;广东%&＃39;; 用时： 6.605s hive：select (sum(year(&＃39;2014-10-01&＃39;) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 where address like &＃39;广东%&＃39;; 用时：188.206s 2. 对每个城市的的平均年龄进行从高到低的排序 mysql：select address, (sum(year(NOW()) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 GROUP BY address order by ageAvge desc; 用时：19.926s hive：select address, (sum(year(&＃39;2014-10-01&＃39;) - SUBSTRING(borth,1,4))/count(*)) as ageAvge from test_sfz2 GROUP BY address order by ageAvge desc; 用时：411.816s

推荐阅读

ubuntu
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
ubuntu
FileNotFoundException: File does not exist

ubuntu用sqoop将数据从hive导入mysql时，命令： ... [详细]

蜡笔小新 2023-12-12 18:56:13
ubuntu
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
server
马蜂窝数据总监分享：从数仓到数据中台，大数据演进技术选型最优解

大家好，今天分享的议题主要包括几大内容：带大家回顾一下大数据在国内的发展，从传统数仓到当前数据中台的演进过程；我个人认为数 ... [详细]

蜡笔小新 2023-10-14 14:20:07
static
【数据结构与算法】——快速排序

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,O ... [详细]

蜡笔小新 2023-10-11 18:06:17
static
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
static
大数据开发笔记（一）：HDFS介绍

✨大数据开发笔记推荐：大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍大数据hadoop生态圈各部分知识，包括不限 ... [详细]

蜡笔小新 2023-10-10 18:18:49
api
怎么快速学好大数据开发？

新如何学习大数据技术？大数据怎么入门？怎么做大数据分析？数据科学需要学习那些技术？大数据的应用前景等等问题，已成为热门大数据领域热门问题，以下是对新手如何学习大数据技术问题的解答！ ... [详细]

蜡笔小新 2023-10-10 16:15:09
server
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
server
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
server
sh cca175problem03evolveavroschema.sh

sh cca175problem03evolveavroschema.sh ... [详细]

蜡笔小新 2024-10-25 14:18:50
上传
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
上传
第三节 Sqoop：实现数据的精准控制与高效导入

通过使用Sqoop导入工具，可以精确控制并高效地将表数据的特定子集导入到HDFS中。具体而言，可以通过在导入命令中添加WHERE子句来指定所需的数据范围，从而在数据库服务器上执行相应的SQL查询，并将查询结果高效地存储到HDFS中。这种方法不仅提高了数据导入的灵活性，还确保了数据的准确性和完整性。 ... [详细]

蜡笔小新 2024-11-11 22:58:51
上传
apache各版本软件下载地址(含历史版本)

转载：https:blog.csdn.nethigh2011articledetails70155431清华大学镜像网：https:mirrors.tu ... [详细]

蜡笔小新 2024-10-13 14:29:46
x86
基于Web的Kafka管理器工具之Kafkamanager的编译部署详细安装 (支持kafka0.8、0.9和0.10以后版本)（图文详解）（默认端口或任意自定义端口）

问题详情无奈于，在kafka里没有一个较好自带的webui。启动后无法观看，并且不友好。所以，需安装一个第三方的kafka管理工具为了简化开发者和服务工程师维护 ... [详细]

蜡笔小新 2024-10-10 13:27:31

罗然8_907

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章