当前位置: 开发笔记 > 后端 > 正文

MySQL向Hive/HBase的迁移工具

作者：欢乐文艺女青年 | 来源：互联网 | 2017-05-12 15:28

ApacheHive是目前大型数据仓库的免费首选产品之一，使用ApacheHive的人是不会期望在小数据量上做什么文章，例如把MySQL中的数据搬到HiveHBase中去，那样的话原先很快能执行完毕的SQL，估计在Hive上运行跟原来相比时间延长10倍都不止。但如果你有MySQL数据

Apache Hive是目前大型数据仓库的免费首选产品之一，使用Apache Hive的人是不会期望在小数据量上做什么文章，例如把MySQL中的数据搬到Hive/HBase中去，那样的话原先很快能执行完毕的SQL，估计在Hive上运行跟原来相比时间延长10倍都不止。但如果你有MySQL数据

Apache Hive是目前大型数据仓库的免费首选产品之一，使用Apache Hive的人是不会期望在小数据量上做什么文章，例如把MySQL中的数据搬到Hive/HBase中去，那样的话原先很快能执行完毕的SQL，估计在Hive上运行跟原来相比时间延长10倍都不止。但如果你有MySQL数据可以把大量的数据向Hive导入，如果上亿条的数据量再加上复杂的SQL查询条件对于MySQL来说是一件比较头疼的事情，此时相比而言对于Hive来说还算比较easy没有那么非常的头痛，但是两者之间缺少一个沟通的桥梁。

而然伟大的云计算公司cloudera.com也是Hadoop强力支持者推出了Sqoop，Sqoop顾名思义SQL-to-Hadoop，在sqoop中通过 ManagerFactory 抽象类对多种数据库类型进行了抽象，可以做到 Hsqldb、MySQL、Oracle、PostgreSQL 这些数据库中的数据可以向Hive中写入。

从导出/导入所有数据一条命令即可，而且可以对表和数据的筛选，开发的效率提升和配置的简洁是这个工具的特色所在，同样的机器配置、机器数量、数据量和数据内容，但是换了不同的环境得到了不同的执行效率，通过对RMDBS到Hadoop的迁移，带来了性能的提升，所以就体现了sqoop的价值。

在一次开发大会上提到的Sqoop主要功能
JDBC-based implementation
? Works with many popular database vendors
Auto-generation of tedious user-side code
? Write MapReduce applications to work with your data, faster
Integration with Hive
? Allows you to stay in a SQL-based environment
Extensible backend
? Database-specific code paths for better performance

具体操作手册相见：
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html (官方)

相关文章：
Hive入门3&＃8211;Hive与HBase的整合
Apache Hive入门2
Apache Hive入门1
Apache Pig入门1 &＃8211;介绍/基本架构/与Hive对比

&＃8211;end&＃8211;

原文地址：MySQL向Hive/HBase的迁移工具, 感谢原作者分享。

推荐阅读

api
Spark学习之路(一)Spark概述

一,什么是spark定义:Spark一种基于内存的快速,通用,可扩展的大数据分析引擎.官网地址：http:spark.apache.org历史:2009年诞生于加州伯 ... [详细]

蜡笔小新 2023-10-10 18:42:22
api
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
api
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
api
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
并发
Hadoop——Hive简介和环境配置

一、Hive的简介和配置1.简介Hive是构建在Hadoop之上的数据操作平台lHive是一个SQL解析引擎，它将SQL转译成MapReduce作业，并 ... [详细]

蜡笔小新 2023-10-14 16:22:56
并发
Android 新闻App的本地服务器搭建教程

本文介绍了在开发Android新闻App时，搭建本地服务器的步骤。通过使用XAMPP软件，可以一键式搭建起开发环境，包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表，并设置相应的属性。最后，给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]

蜡笔小新 2023-12-14 17:15:19
并发
大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记

本文介绍了大数据Hadoop生态(20)MapReduce框架原理OutputFormat的开发笔记，包括outputFormat接口实现类、自定义outputFormat步骤和案例。案例中将包含nty的日志输出到nty.log文件，其他日志输出到other.log文件。同时提供了一些相关网址供参考。 ... [详细]

蜡笔小新 2023-12-10 11:44:06
api
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
api
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
api
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
api
Zookeeper详解应用程序（七）

Zookeeper为分布式环境提供灵活的协调基础架构。ZooKeeper框架支持许多当今最好的工业应用程序。我们将在本章中讨论ZooKeeper的一些最显着的应用。雅虎ZooKee ... [详细]

蜡笔小新 2023-10-16 08:30:29
api
开发笔记:Hadoop Mapreduce

代码如下： ... [详细]

蜡笔小新 2023-10-15 08:41:08
并发
Hdoop入门

一、背景1、起源MapReduce编程模型的思想来源于函数式编程语言Lisp，由Google公司于2004年提出并首先应用于大型集群。同时，Google ... [详细]

蜡笔小新 2023-10-10 12:27:30
并发
Kylin——CDH

CDH:Cloudera‘sDistribution,includingApacheHadoop.Hadoop众多分支中的一种，可直接用于成产环境CM：Cloudera ... [详细]

蜡笔小新 2023-10-09 20:42:36
并发
Hadoop与大数据技术大会将于11月30日开幕

11月26日，由中国计算机协会（CCF）主办，CCF大数据专家委员会协办，CSDN承办的Hadoop与大数据技术大会（Hadoop&BigDataTechnology ... [详细]

蜡笔小新 2023-10-17 17:47:11

欢乐文艺女青年

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章