,当创建link时,用这个id指定所继承的connector,但在这个版本中没有这个id了,创建link时直接使用connector名称创建,这里我们使用的是generic-jdbc-connector(一般数据库都可以用这个):@H_403_3@
createlink-c[onnector] generic-jdbc-connector@H_403_3@@H_403_3@
这时候就会出现交互会话,提示你输入各项参数:
Name: MysqL-link 标示这个link的字符串,就是一个名字,但是不能重复
Driver Class:指定jdbc启动时所需要加载的driver类,这个类实现了Java.sql.Driver接口。对本文来说,这个值是com.MysqL.jdbc.Driver。
Connection String:本例为jdbc:MysqL://master:3306/hive, #注意:jdbc:MysqL://主机名(ip):端口/数据库名
Username:链接数据库的用户名,也就是MysqL客户端传入的-u参数。本例是hive。
Password:链接数据库的用户密码。(注:在使用update命令时,这里默认是没有的,其他参数都会保存原来输过的值)
FetchSize:直接回车了,使用的默认值,不是很清楚这个值,请知道的大牛告知,按字面意思就是获取一次资源时的大小。
填写完上面几项,将提供一个可以输入JDBC属性的hash,提示符是entry#,这时候可以手动指定很多JDBC属性的值。本例只覆盖了一个protocol值为tcp:protocol=tcp
再按回车,之后会再定义一下sql方言。也就是说,各个数据库系统提供商们对sql语言标准的理解和实现各有不同,于是各有各的一些细微差别。以下属性就是用于指定这些区别的。 官方文档上并没有说明这些属性如何填写,连提都没提(官网有时还是挺坑的)。
Identifier enclose:指定sql中标识符的定界符@H_403_3@,也就是说,有的sql标示符是一个引号:select * from "table_name", 在写MysqL的sql语句中会加上双引号,这种定界符在MysqL中是会报错的,。这个属性默认值就是双引号,所以不能直接回车使用默认值,必须将之覆盖,我使用空格覆盖了这个值。
至此,就可以完成这个link的创建。命令行提示符也会还原为sqoop:000>。使用以下命令查看是否创建成功:@H_403_3@@H_403_3@@H_403_3@
show link,后面也可以加参数,-n或者-a之类的
@H_403_3@
@H_403_3@@H_403_3@
2.2创建HDFS链接
createlink-c hdfs-connector@H_403_3@@H_403_3@
Name: hdfs-link 与MysqL的一样,是个名字但不重复
@H_403_3@
HDFS URI:hdfs://master:9000/@H_403_3@@H_403_3@@H_403_3@@H_403_3@这个url是hadoop中配置hdfs-site.xml中的属性@H_403_3@fs.defaultFS@H_403_3@的值(老版的hadoop是fs.default.name,如果没找到就使用webUI (http://主机名(ip):8088/conf) 去配置中心看)。@H_403_3@@H_403_3@@H_403_3@
Hadoop conf directory:/mysoftware/hadoop-2.7.1/etc/hadoop @H_403_3@#Hadoop配置文件的目录@H_403_3@
回车后没有什么错误就会显示successful信息。@H_403_3@
2.3 创建一个job
@H_403_3@createjob-f"MysqL-link"-t"hdfs-link"@H_403_3@@H_403_3@@H_403_3@
-f指定from,即是数据源位置,-t指定to,即是目的地位置。本例是从MysqL传递数据到HDFS,所以就是from MysqL to HDFS。参数值就是在创建链接(link)时指定的Name。名字在上面取好了,知道为啥名字不能重复了吧@H_403_3@
@H_403_3@
@H_403_3@
Name: MysqL_hdfs_job #Name必须唯一
Schema name: hive #必填,数据库名称
Table name: DBS@H_403_3@ #必填,表名
#以下几个配置我也是直接回车,使用默认值,从名字上能看出个大概的值
Table sql statement: @H_403_3@ #可选
Table column names: @H_403_3@#可选
Partition column name: @H_403_3@ #可选
Null value allowed for the partition column: #可选
Boundary query: #可选
Check column: #可选
Last value: #可选
Override null value: #可选
Null value:
Output format: #输出文件格式
0 : TEXT_FILE@H_403_3@
@H_403_3@..........@H_403_3@
Choose: 0 #必选
Compression format: @H_403_3@#用于指定使用什么压缩算法进行导出数据文件压缩,我指定NONE,这个也可以使用自定义的压缩算法CUSTOM,用Java实现相应的接口@H_403_3@
0 : NONE
..........
Choose: 0 #必选 这个就是指定的custom压缩算法
Output directory: /mysqoop # 指定存储在HDFS文件系统中的路径,这里最好指定一个存在的路径,或者存在但路径下是空的,貌似这样才能成功。
Append mode: @H_403_3@#是否追加文件,不懂的是,要求文件夹是空,连文件都没有何来追加!
#下面两个数量怎么取值,还不是很情况,请大牛告知
Extractors: 2 #可选,对应mapreduce的job中的map的数量
Loaders: 1 #可选,对应mapreduce的job中的reduce的数量
最后再次出现element#提示符,用于输入extra mapper jars的属性,可以什么都不写。直接回车。
至此若出现successful则证明已经成功创建。@H_403_3@
2.4 运行job
@H_403_3@start job -n MysqL_hdfs_job -s (名字上的引号要不要都无所谓)
@H_403_3@
-s 参数可以看到运行的状态,@H_403_3@
也可以用status job -n MysqL_hdfs_job 查看或者使用webUI查看 (http://主机名(ip):8088/cluster/apps),也能看日志@H_403_3@
@H_403_3@
如果失败,优先看sqoop shell中有没有报错,再者看日志,可以在webUI中和sqoop的日志文件看,前面有提及,如果日志中没有明显的报错,一般是你设置某个参数时不正确,或者是(hadoop)配置文件有问题,@H_403_3@
报错时的推荐参数:@H_403_3@
在Hadoop的yarn-site.xml 这个配置文件中设置以下属性
yarn.log-aggregation-enable
true
在mapred-site.xml中设置:(默认200)
mapred.child.java.opts
-Xmx1024m
@H_403_3@
参考文章:
http://www.cnblogs.com/avivaye/p/6196485.html
http://www.cnblogs.com/avivaye/p/6197123.html
http://blog.csdn.net/M_SIGNALs/article/details/53189424
http://blog.csdn.net/u012842205/article/details/52346595
http://blog.csdn.net/u014729236/article/details/46876651
还有很多地方不太懂,求知道的大牛,不吝赐教!共勉!
总结
如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您喜欢交流学习经验,点击链接加入交流1群:1065694478(已满)交流2群:163560250