热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Sqoop简介及使用

一、Sqoop概述1)官网http:sqoop.apache.org2)场景传统型缺点,分布式存储。把传统型数据库数据迁移。ApacheS

一、Sqoop概述1&#xff09;官网http://sqoop.apache.org/2&#xff09;场景传统型缺点&#xff0c;分布式存储。把传统型数据库数据迁移。Apache Sqoop&#xff08;TM&#xff09;是一种用于在Apache Hadoop和结构化数据存储&#xff08;如关系数据库&#xff09;之间高效传输批量数据的工具。二、Sqoop安装部署1&#xff09;下载安装包2&#xff09;解压tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz3)修改配置 mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoopcd sqoop/confmv sqoop-env-template.sh sqoop-env.shvi sqoop-env.shexport HADOOP_COMMON_HOME&#61;/root/hd/hadoop-2.8.4export HADOOP_MAPRED_HOME&#61;/root/hd/hadoop-2.8.4export HIVE_HOME&#61;/root/hd/hiveexport ZOOCFGDIR&#61;/root/hd/zookeeper-3.4.10/conf4&#xff09;发送mysql驱动到sqoop/lib下5&#xff09;检测是否安装成功bin/sqoop help三、Sqoop的import命令执行mysql -uroot -proot进入mysql命令行准备数据&#xff1a;create database sq;use sq;create table user(id int primary key auto_increment,name varchar(20),addr varcher(200));insert into user(id,name,addr) values(1,"zhangsan","beijing");insert into user(id,name,addr) values(2,"lisi","shanghai");select * from user;create table user1(id int primary key auto_increment,name varchar(20));insert into user1(id,name) values(1,"haha");insert into user1(id,name) values(2,"hongqigong");select * from user1;1&#xff09;数据从mysql中导入到hdfs当中bin/sqoop import --connect jdbc:mysql://hd09-1:3306/sq --username root --password root --table user --target-dir /sqoop/datas--delete-target-dir --num-mappers 1 --fields-terminated-by "\t"2&#xff09;数据mysql中导入到hdfs当中进行筛选bin/sqoop import --connect jdbc:mysql://hd09-1:3306/sq --username root --password root --target-dir /sqoop/selectdemo --delete-target-dir--num-mappers 1 --fields-terminated-by "\t" --query &#39;select * from user where id<&#61;1 and $CONDITIONS&#39;3&#xff09;通过where筛选bin/sqoop import --connect jdbc:mysql://hd09-1:3306/sq --username root --password root --target-dir /sqoop/selectdemo2 --delete-target-dir--num-mappers 1 --fields-terminated-by "\t" --table user --where "id<&#61;1"4&#xff09;mysql导入到hive需要先创建hive表&#xff1a; create table user_sqoop(id int,name string) row format delimited fields terminated by &#39;\t&#39;;bin/sqoop import --connect jdbc:mysql://hd09-1:3306/sq --username root --password root --table user1 --num-mappers 1--hive-import --fields-terminated-by "\t" --hive-overwrite --hive-table user_sqoop四、问题&#xff1a;hiveconf解决&#xff1a;vi ~/.bash_profileexport HADOOP_CLASSPATH&#61;$HADOOP_CLASSPATH:/root/hd/hive/lib/*
   mysql权限问题&#xff1a;grant all privileges on *.* to root&#64;&#39;%&#39; identified by "root";flush privileges;五、Sqoop的export命令需求&#xff1a;Hive/hdfs的数据导出到mysql1&#xff09;根据hive中的字段创建mysql表create table user1(id int primary key auto_increment,name varchar(20));2&#xff09;编写sqoop启动命令bin/sqoop export --connect jdbc:mysql://hd09-1:3306/sq --username root --password root --table user1 --num-mappers 1 --export-dir /user/hive/warehouse/user_sqoop --input-fields-terminated-by "\t"3)mysql中查看数据是否导入select * from user1;六、Sqoop打包脚本的使用1&#xff09;创建文件夹mkdir sqoopjob2&#xff09;创建文件脚本vi job_hdfs2mysql.optexport--connectjdbc:mysql://hd09-1:3306/sq--usernameroot--passwordroot--tableuser1--num-mappers1--export-dir/user/hive/warehouse/user_sqoop--input-fields-terminated-by"\t"注意&#xff1a;一行命令 一行值3&#xff09;执行脚本文件bin/sqoop --options-file /root/sqoopjob/job_hdfs2mysql.opt七、sqoop常用命令命令           说明import 将数据导入到集群export 将集群数据导出codegen 将某数据库中表生成javaBean并打包为jareval 查看sql执行结果create­hive­table     创建hive表import­all­tables     导入某个数据库中所有表到hdfs中list­tables 列出某个数据库下的所有表merge 将hdfs中不同目录下的数据合并在一起version V 查看sqoop版本help 查看帮助信息八、sqoop常用参数参数            说明–connect 连接关系型数据库URL–connection­manager 指定连接管理类–driver JDBC的driver class–username 连接数据库的用户名–password 连接数据库的密码–verbose 在控制台中打印详细信息–help 查看帮助–hive­import 将关系型数据库导入到hive表中–hive­overwrite 覆盖掉hive表中已存在的数据–create­hive­table 创建hive表–hive­table 接入hive表–table 指定关系型数据库的表名

 

转:https://www.cnblogs.com/areyouready/p/10049509.html



推荐阅读
  • 一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]
  • 周排行与月排行榜开发总结
    本文详细介绍了如何在PHP中实现周排行和月排行榜的开发,包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]
  • Docker 环境下 MySQL 双主同步配置指南
    本文介绍了如何在 Docker 环境中配置 MySQL 的双主同步,包括目录结构的创建、配置文件的编写、容器的创建与设置以及最终的验证步骤。 ... [详细]
  • 基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装
    一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012,引入SQLServer2012群集提高高可用性,需要对SQLServ ... [详细]
  • DAO(Data Access Object)模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法,它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]
  • 本文介绍如何在将数据库从服务器复制到本地时,处理因外键约束导致的数据插入失败问题。 ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 如何在Java中使用DButils类
    这期内容当中小编将会给大家带来有关如何在Java中使用DButils类,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。D ... [详细]
  • 本文总结了在SQL Server数据库中编写和优化存储过程的经验和技巧,旨在帮助数据库开发人员提升存储过程的性能和可维护性。 ... [详细]
  • php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]
  • 开机自启动的几种方式
    0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录,这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]
  • 数据类型和操作数据表2.1MySQL类型之整型2.2MySQL数据类型之浮点型2.3日期时间型DATE1支持时间:1000年1月1日~9999年12月31日DATETIME ... [详细]
  • 本文详细介绍了MySQL数据库的基础语法与核心操作,涵盖从基础概念到具体应用的多个方面。首先,文章从基础知识入手,逐步深入到创建和修改数据表的操作。接着,详细讲解了如何进行数据的插入、更新与删除。在查询部分,不仅介绍了DISTINCT和LIMIT的使用方法,还探讨了排序、过滤和通配符的应用。此外,文章还涵盖了计算字段以及多种函数的使用,包括文本处理、日期和时间处理及数值处理等。通过这些内容,读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
author-avatar
mobiledu2502924751
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有