首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

四十、centos安装sqoop（使用Sqoop完成MySQL和HDFS之间的数据互导）

作者： | 来源：互联网 | 2023-07-29 10:55

环境准备：centos7centos可以上网hadoop，Hbase，Hive，Zookeeper正常运行环境搭建&#

环境准备&＃xff1a;

centos 7

centos 可以上网

hadoop&＃xff0c;Hbase&＃xff0c;Hive&＃xff0c;Zookeeper正常运行

环境搭建&＃xff1a;

版本&＃xff1a;

sqoop1.4.7-hadoop2.6.0

一、Sqoop安装

1、直接在虚拟机浏览器下载sqoop1.4.7

https://archive.apache.org/dist/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gzhttps://archive.apache.org/dist/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz

2、解压安装包

3、重命名为Sqoop

mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop

4、配置sqoop-env.sh

(1)复制配置文件并重命名为sqoop-env.sh

cat sqoop-env-template.sh >> sqoop-env.sh

(2)修改配置文件

编辑sqoop-env.sh文件&＃xff0c;分别将Hadoop、HBase、Hive、ZooKeeper的安装目录添加到文件中。

5、配置环境变量

vim /etc/profile

使环境变量立即生效&＃xff1a;

source /etc/profile

6、配置MySQL连接

&＃xff08;1&＃xff09;添加MySQL的JAR包到Sqoop安装目录中。

&＃xff08;2&＃xff09;测试Sqoop与MySQL之间的连接

A、启动MySQL服务&＃xff1a;

B、测试Sqoop与MySQL之间的连接是否成功&＃xff1a;

sqoop list-databases --connect jdbc:mysql://localhost:3306 --username root -password dang

注&＃xff1a;如果可以看到MySQL数据库中的数据库列表&＃xff0c;则表示Sqoop安装成功

centos安装Sqoop完成

Sqoop的使用&＃xff1a;

二、使用Sqoop完成MySQL和HDFS之间的数据互导

1、上传准备好的测试数据到MySQL中

&＃xff08;1&＃xff09;登录MySQL&＃xff1a;

&＃xff08;2&＃xff09;创建测试数据库

&＃xff08;3&＃xff09;创建表test1&＃xff0c;用于存放本地测试数据

create table test1(ip varchar(100) not null,time varchar(100) not null,url varchar(100) not null);

&＃xff08;4&＃xff09;新建测试数据文件

写入&＃xff1a;

注意&＃xff1a;此 txt 文件字段之间需要用Tab键隔开&＃xff0c;空格是不可行的&＃xff0c;遇到datatime日期的&＃xff0c;年月日&＃xff0c;时分秒之间需用空格隔开&＃xff0c;不需要添加引号

&＃xff08;5&＃xff09;将本地的测试数据上传到test1表中

load data local infile "/opt/linshi/test.txt" into table test1(ip,time,url);

&＃xff08;6&＃xff09;上传完成后&＃xff0c;查看test1表中的数据&＃xff1a;

select * from test1;

2、上传数据到HDFS中

&＃xff08;1&＃xff09;启动hadoop集群

&＃xff08;2&＃xff09;将test1中的数据上传到HDFS中&＃xff1a;

./sqoop import --connect jdbc:mysql://localhost:3306/test --username root --password dang --table test1 -m 1

&＃xff08;3&＃xff09;查看导入的数据

hdfs dfs -cat /user/root/test1/part-m-00000

&＃xff08;4&＃xff09;登录HDFS网页查看

HDFS的web端&＃xff1a;localhost:50070

&＃xff08;5&＃xff09;将HDFS数据导入MySQL中

注&＃xff1a;在导出前需要先创建导出表的结构&＃xff0c;如果导出的表在数据表中不存在&＃xff0c;则系统会报错&＃xff1b;若重复导出数据&＃xff0c;则表中的数据会重复

A、在test数据库中创建表test2&＃xff0c;可以直接复制表test1的结构&＃xff1a;

create table test2 as select * from test1 where 1&＃61;2;

B、查看表test1&＃xff0c;表test2&＃xff1a;

C、使用sqoop将HDFS中的数据导入MySQL的test2中&＃xff1a;

sqoop export --connect jdbc:mysql://192.168.231.105:3306/test --username root --password dang --table test2 --export-dir /user/root/test1/part-m-00000 -m 1

注&＃xff1a;localhost最好写成本机地址&＃xff0c;之前写的localhost报错了

&＃xff08;6&＃xff09;再次查看test2表&＃xff1a;

HDFS的数据成功导入test2

一条华丽的分割线

centos安装sqoop&＃xff08;使用Sqoop完成MySQL和HDFS之间的数据互导&＃xff09;案例完成

其他环境搭建参见&＃xff1a;

Hadoop伪分布式的搭建详情https://blog.csdn.net/m0_54925305/article/details/118650350?spm&＃61;1001.2014.3001.5502Hadoop完全分布式的搭建详情https://blog.csdn.net/m0_54925305/article/details/118851554?spm&＃61;1001.2014.3001.5502Zookeeper集群的搭建&＃xff08;单机、伪分布式、集群&＃xff09;https://blog.csdn.net/m0_54925305/article/details/119059186?spm&＃61;1001.2014.3001.5502Spark的安装与部署详情&＃xff08;Local模式&＃xff0c;Standalone模式&＃xff0c;Spank on YARN模式&＃xff09;https://blog.csdn.net/m0_54925305/article/details/119005751?spm&＃61;1001.2014.3001.5502HadoopHA环境搭建&＃xff08;保姆篇&＃xff0c;手把手搭建&＃xff09;https://blog.csdn.net/m0_54925305/article/details/119838463?spm&＃61;1001.2014.3001.5502hbase集群的搭建&＃xff08;HBase Shell&＃xff09;https://blog.csdn.net/m0_54925305/article/details/120787788?spm&＃61;1001.2014.3001.5502Centos安装mysql(rpm终结版)https://blog.csdn.net/m0_54925305/article/details/120476116?spm&＃61;1001.2014.3001.5502centos安装hive3.1.2&＃xff08;精讲篇&＃xff09;https://blog.csdn.net/m0_54925305/article/details/120554242?spm&＃61;1001.2014.3001.5502Centos安装yum,wegt(完全配置篇)https://blog.csdn.net/m0_54925305/article/details/120467143?spm&＃61;1001.2014.3001.5502

推荐阅读

jar
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
string
Hadoop MapReduce 实战案例：手机流量使用统计分析

本文通过一个具体的Hadoop MapReduce案例，详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况，包括上行和下行流量的计算以及总流量的汇总。 ... [详细]

蜡笔小新 2024-11-23 20:11:23
get
搭建个人博客：WordPress安装详解

计划建立个人博客来分享生活与工作的见解和经验，选择WordPress是因为它专为博客设计，功能强大且易于使用。 ... [详细]

蜡笔小新 2024-11-22 11:13:36
function
在Linux系统中配置环境变量以切换不同版本Python的方法与实践

在Linux系统中，原本已安装了多个版本的Python 2，并且还安装了Anaconda，其中包含了Python 3。本文详细介绍了如何通过配置环境变量，使系统默认使用指定版本的Python，以便在不同版本之间轻松切换。此外，文章还提供了具体的实践步骤和注意事项，帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]

蜡笔小新 2024-10-30 09:39:09
jar
Sqoop-1.99.7安装配置（详细图文）

环境：centos6.5，hadoop2.6.4集群1.解压安装sqoop从官网下载好安装包，发送到集群中任意一台主机即可。相信大家已经看到，1.99.7跟1.4.6是不兼容的，而 ... [详细]

蜡笔小新 2024-10-09 16:41:01
jar
本文_大数据之非常详细Sqoop安装和基本操作

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据之非常详细Sqoop安装和基本操作相关的知识，希望对你有一定的参考价值。大数据大数据之 ... [详细]

蜡笔小新 2023-10-15 15:25:37
web
Sqoop 的使用场景分析

前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出， ... [详细]

蜡笔小新 2023-10-10 19:29:19
function
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
jar
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
string
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
string
Java 容器学习笔记

通过马老师的视频学习了Java中的容器相关内容，包括Collection、Set、List、Map及其常见实现类，并深入了解了这些容器的基本操作方法。 ... [详细]

蜡笔小新 2024-11-15 08:31:19
string
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
string
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
string
crontab 取不到环境变量

2019独角兽企业重金招聘Python工程师标准今天遇到一个问题，觉得有一些价值和大家分享一下。脚本在手动执行的情况下，没有问题，但 ... [详细]

蜡笔小新 2023-10-12 09:05:32
string
架构升级给DolphScheduler带来2~3倍性能提升

引言大数据任务调度作为大数据建设中的核心基础设施，在经过社区用户们长期的使用中，不少用户对调度也提出了很多新的要求，为此，ApacheDolphinScheduler(Incub ... [详细]

蜡笔小新 2023-10-11 15:35:02

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有