sqoop
产生的原因: 多数使用Hadoop
技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。由于没有工具支持,对Hadoop
和关系型数据库之间数据传输是一个很困难的事。所以sqoop
产生了。
sqoop
简介: sqoop
是连接关系型数据库和Hadoop
的桥梁,主要有两个方面(导入和导出):
- 将关系型数据库的数据导入到
Hadoop
及其相关的系统中,如Hive
和HBase
- 将数据从
Hadoop
系统里抽取并导出到关系型数据库
sqoop
的优点:
- 可以高效、可控的利用资源,可以通过调整任务数来控制任务的并发度。
- 可以自动的完成数据映射和转换。由于导入数据库是有类型的,它可以自动根据数据库中的类型转换到
Hadoop
中,当然用户也可以自定义它们之间的映射关系。 - 支持多种数据库,如
mysql
,orcale
等数据库。
sqoop
工作的机制: 将导入或导出命令翻译成MapReduce
程序来实现在翻译出的,MapReduce
中主要是对InputFormat
和OutputFormat
进行定制
离线项目的处理架构流程