热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

sqoop介绍及安装

目录什么是sqoopsqoop提供了哪些主要功能sqoop核心技术1、生成mapreduce2、作业创建

目录

  • 什么是sqoop
  • sqoop提供了哪些主要功能
  • sqoop核心技术
    • 1、生成mapreduce
    • 2、作业创建
    • 3、数据映射
    • 4、并行控制
  • 安装

什么是sqoop

sqoop是一个用来将关系型数据库和hadoop中的数据进行相互转移的工具。例如关系型数据库mysql、oracle等,hadoop数据如hdfs、hive、hbase等。

sqoop提供了哪些主要功能

  1. 数据导入。如关系型数据库导入到hdfs。
  2. 数据导出。如hdfs数据导出到关系型数据库。
  3. sqoop定时作业。如定时导入导出新数据。
  4. 等等

sqoop核心技术

1、生成mapreduce

sqoop接收用户的请求,通过解析请求,生成mapreduce代码,并打包,将打好的jar包提交给hadoop执行。生成mapreduce代码是sqoop的核心技术,也是数据传输的关键。

2、作业创建

定时导入导出新数据的sqoop作业。

3、数据映射

关系型数据库字段是有类型的,数据映射可以自动对数据库字段类型和hadoop的类型进行对应。当然也可以自定义类型映射。

4、并行控制

采用sqoop集群或者多个任务并行进行数据的导入导出工作。为了提升性能使用的。

安装

官网下载sqoop的安装包,此处使用的sqoop2

# 1.解压
$ tar -zxf sqoop-1.99.7-bin-hadoop200.tar.gz

$ ls
bin  CHANGELOG.txt  conf  docs  LICENSE.txt  NOTICE.txt  README.txt  server  shell  tools

# 2.配置sqoop环境变量,增加以下环境配置
$ vim /etc/profile
export SQOOP_HOME=/usr/local/app/sqoop/sqoop-1.99.7-bin-hadoop200
export PATH=$PATH:$SQOOP_HOME/bin
export CATALINA_HOME=$SQOOP_HOME/server
export SQOOP_SERVER_EXTRA_LIB=$SQOOP_HOME/extra
export LOGDIR=$SQOOP_HOME/logs

# 3.在sqoop目录下创建extra和logs目录
$ mkdir extra logs

# 4.告知sqoop从何处寻找hadoop的配置文件
$ vi sqoop.properties
# Hadoop configuration directory
org.apache.sqoop.submission.engine.mapreduce.configuration.directory=/usr/local/app/hadoop/hadoop-3.1.2/etc/hadoop

# 5.在conf目录下,添加catalina.properties文件。加入本机hadoop的相关jar路径
# catalina.properties文件内容如下,只要替换hadoop的安装目录就行了
common.loader=${catalina.base}/lib,${catalina.base}/lib/*.jar,${catalina.home}/lib,${catalina.home}/lib/*.jar,${catalina.home}/../lib/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/common/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/common/lib/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/hdfs/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/hdfs/lib/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/mapreduce/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/mapreduce/lib/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/tools/lib/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/yarn/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/yarn/lib/*.jar,/usr/local/app/hadoop/hadoop-3.1.2/share/hadoop/httpfs/tomcat/lib/*.jar

# 6.在SQOOP_HOME/server/lib目录下加入mysql的jar包
$ pwd
/usr/local/app/sqoop/sqoop-1.99.7-bin-hadoop200/server/lib
$ ls mysql-connector-java-8.0.13.jar 
mysql-connector-java-8.0.13.jar

# 启动sqoop server 服务
$ sqoop2-server start
# 进入sqoop交互模式
$ sqoop2-shell

推荐阅读
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • Oracle Database 10g许可授予信息及高级功能详解
    本文介绍了Oracle Database 10g许可授予信息及其中的高级功能,包括数据库优化数据包、SQL访问指导、SQL优化指导、SQL优化集和重组对象。同时提供了详细说明,指导用户在Oracle Database 10g中如何使用这些功能。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 如何利用 Myflash 解析 binlog ?
    本文主要介绍了对Myflash的测试,从准备测试环境到利用Myflash解析binl ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
  • MySQL数据库锁机制及其应用(数据库锁的概念)
    本文介绍了MySQL数据库锁机制及其应用。数据库锁是计算机协调多个进程或线程并发访问某一资源的机制,在数据库中,数据是一种供许多用户共享的资源,如何保证数据并发访问的一致性和有效性是数据库必须解决的问题。MySQL的锁机制相对简单,不同的存储引擎支持不同的锁机制,主要包括表级锁、行级锁和页面锁。本文详细介绍了MySQL表级锁的锁模式和特点,以及行级锁和页面锁的特点和应用场景。同时还讨论了锁冲突对数据库并发访问性能的影响。 ... [详细]
  • OCI连接MySQL_PLSQL Developer连接远程数据库OCI客户端安装方法
    本文介绍了使用OCI客户端连接MySQL和PLSQL Developer连接远程数据库的安装方法,避免了在本地安装Oracle数据库或类似的开发套件的麻烦,同时解决了PLSQL Dev连接远程Oracle时的配置问题。 ... [详细]
  • 大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记
    本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记,包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件,其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]
  • oracle恢复失败,RMAN数据库恢复失败解决一例
    问题:这是一个从RAC环境的数据库的RAMN备份恢复到一个单机数据库的操作。当恢复数据文件和恢复正常,但在open数据库时出报下面的错误。--rman备 ... [详细]
  • Hadoop源码解析1Hadoop工程包架构解析
    1 Hadoop中各工程包依赖简述   Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。   GoogleCluster:ht ... [详细]
  • MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行-- ... [详细]
  • 在Oracle11g以前版本中的的DataGuard物理备用数据库,可以以只读的方式打开数据库,但此时MediaRecovery利用日志进行数据同步的过 ... [详细]
author-avatar
叶子美容美体养生馆os
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有