热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据学习(hbase,hive,sqoop2对数据的简单操作)

我们就简单用一组数据来使用这三个组件首先自己随便准备一组测试数据,导入数据到mysql导入完成。一、用Sqoop1.99.7将mysql数据导入hdfs强烈推荐这篇博客blog.c

我们就简单用一组数据来使用这三个组件

首先自己随便准备一组测试数据,导入数据到mysql

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》
《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

导入完成。

一、用Sqoop1.99.7将mysql数据导入hdfs

强烈推荐这篇博客 blog.csdn.net/m_signals/article/details/53190965

执行sqoop2-shell进入shell界面

setoption–name verbose –valuetrue  这个可以使操作输出更多的信息

setserver–host master –port 12000–webapp sqoop 设置端口号12000

1.执行show version -all,查看sqoop2是否正常运作

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

2.1执行show connector,查看有哪些注册了的连接器

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

2.2创建连接

首先创建jdbc

create link -connector generic-jdbc-connector

Name:标示这个link的字符串,可以是一个自己喜欢的名称。

Driver Class:指定jdbc启动时所需要加载的driver类,这个类实现了Java.sql.Driver接口。对本文来说,这个值是com.mysql.jdbc.Driver。

Connection String:数据库链接字符串

Username:链接数据库的用户名,也就是mysql客户端传入的-u参数。

Password:链接数据库的用户密码。

FetchSize:这个属性并没有在官方文档上描述,直接回车了,使用的默认值。

Identifier enclose:指定SQL中标识符的定界符,也就是说,有的SQL标示符是一个引号:select * from “table_name”,这种定界符在MySQL中是会报错的。这个属性默认值就是双引号,所以不能使用回车,必须将之覆盖,使用空格覆盖这个值。

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

再创建HDFS

create link -connector hdfs-connector

其中URI是我们Hadoop配置文件中fs.defaultFS的值

Conf derectory使我们Hadoop配置文件的目录

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

查看我们创建的link,完成

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

3.接下来就是job

3.1 创建job

create job -f jdbcEmp -t hdfsEmp

-f指定from,即是数据源位置,-t指定to,即是目的地位置。本例是从MySQL传递数据到HDFS,所以就是from mysql to HDFS。参数值就是在创建链接(link)时指定的Name。

3.2 提交job

首先查看我们创建成功的的job

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

提交Job

start job -n EmployeeToHdfs

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

我们也可以在WebUI上查看进程

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

如果你发现如果最后WebUI上报错 ..Exception from container-launch…

那么可以尝试在hadoop的配置文件mapred-site.xml中加上两段话,对JVM的内存进行处理

mapreduce.admin.map.child.java.opts

-Xmx1024m

mapreduce.admin.reduce.child.java.opts

-Xmx5120m

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

(这就是我从运行JOB到JOB FINISHED花了四天的原因之一…)

查看我们的数据

hadoop fs  -cat /sqoop2/*

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

成功。

二、将数据从hdfs导入hbase并显示

启动Hadoop之后,首先在各个节点上启动zookeeper,然后再启动Hbase

主节点有HMaster和QuorumPeerMain

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

分节点有HRegionServer和QuorumPeerMain

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

(如果HMaster启动不久就消失,那就是Hbase配置文件的问题,回头好好检查)

我们使用hbase提供的important工具来导入

首先执行hbase org.apache.hadoop.hbase.mapreduce.Import查看用法

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

看起来大概就是刚才的命令+表名+文件

执行start-hbase.sh

执行hbase shell进入hbase,首先创建我们的表

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

创建之后我们回命令行执行我们刚才所说的命令

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

但是报错:不是序列化文件。所以就得换个方法了,于是我就找到下面这个命令

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=”,” -Dimporttsv.columns=HBASE_ROW_KEY,**列名1**,**列名2**  **表名**  **文件路径**

这个命令就是先执行文件序列化,再导入HBase,我们实际操作下

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator=”,” -Dimporttsv.columns=HBASE_ROW_KEY,emp_no,birth_date,first_name,last_name,gender,hire_date  employees sqoop2/*

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

然后就开始执行MapReduce程序,同样可以通过WebUI查询。

最后跑完,我们回hive查看下

执行scan‘employees’

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

大概就是这样了,因为数据比较多,我没等刷新完,但已经说数据已经成功从HDFS导入到HBase中了。

三、将数据从hdfs导入hive并显示

在导入数据之前,我们首先得根据源数据的类型来创建一个表

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

通过mysql可以看到有哪些数据和类型

所以我们进入到我们的hive界面,执行下面的操作创建一个新表

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

(hive中没有enum,所以我直接替换成了string;date类型我查了,hive应该是自带了的,但我始终打印出来的是NULL,所以暂时也用string代替)

然后执行

load data inpath‘**HDFS上的路径***’into table **表名称**;

将HDFS上的数据导入到hive中。

成功之后执行select * from  **表名**  ;

《大数据学习(hbase,hive,sqoop2对数据的简单操作)》

我们就可以看到已经成功的把数据导入到了hive中

四.hive和hbase的基本shell操作

这个在网上就随便搜搜就一大堆的,我再啰嗦就不好了….

至此结束,如果有任何错误地方欢迎指出(╯‵□′)╯︵┻━┻


推荐阅读
  • 包含phppdoerrorcode的词条 ... [详细]
  • 本文详细介绍了使用 Python 进行 MySQL 和 Redis 数据库操作的实战技巧。首先,针对 MySQL 数据库,通过 `pymysql` 模块展示了如何连接和操作数据库,包括建立连接、执行查询和更新等常见操作。接着,文章深入探讨了 Redis 的基本命令和高级功能,如键值存储、列表操作和事务处理。此外,还提供了多个实际案例,帮助读者更好地理解和应用这些技术。 ... [详细]
  • Spring Data JdbcTemplate 入门指南
    本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作,包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]
  • php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]
  • 在编译 PHP7 的 PDO MySQL 扩展时,可能会遇到 `[mysql_driver.lo]` 错误 1。该问题通常出现在 `pdo_mysql_fetch_error_func` 函数中。本文详细介绍了导致这一错误的常见原因,包括依赖库版本不匹配、编译选项设置不当等,并提供了具体的解决步骤和调试方法,帮助开发者快速定位并解决问题。 ... [详细]
  • MySQL初级篇——字符串、日期时间、流程控制函数的相关应用
    文章目录:1.字符串函数2.日期时间函数2.1获取日期时间2.2日期与时间戳的转换2.3获取年月日、时分秒、星期数、天数等函数2.4时间和秒钟的转换2. ... [详细]
  • 本文介绍了如何在 Spring 3.0.5 中使用 JdbcTemplate 插入数据并获取 MySQL 表中的自增主键。 ... [详细]
  • Spring – Bean Life Cycle
    Spring – Bean Life Cycle ... [详细]
  • DAO(Data Access Object)模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法,它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]
  • oracle c3p0 dword 60,web_day10 dbcp c3p0 dbutils
    createdatabasemydbcharactersetutf8;alertdatabasemydbcharactersetutf8;1.自定义连接池为了不去经常创建连接和释放 ... [详细]
  • importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]
  • 本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件,并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 本文详细介绍了MySQL数据库的基础语法与核心操作,涵盖从基础概念到具体应用的多个方面。首先,文章从基础知识入手,逐步深入到创建和修改数据表的操作。接着,详细讲解了如何进行数据的插入、更新与删除。在查询部分,不仅介绍了DISTINCT和LIMIT的使用方法,还探讨了排序、过滤和通配符的应用。此外,文章还涵盖了计算字段以及多种函数的使用,包括文本处理、日期和时间处理及数值处理等。通过这些内容,读者可以全面掌握MySQL数据库的核心操作技巧。 ... [详细]
  • 如何在Linux服务器上配置MySQL和Tomcat的开机自动启动
    在Linux服务器上部署Web项目时,通常需要确保MySQL和Tomcat服务能够随系统启动而自动运行。本文将详细介绍如何在Linux环境中配置MySQL和Tomcat的开机自启动,以确保服务的稳定性和可靠性。通过合理的配置,可以有效避免因服务未启动而导致的项目故障。 ... [详细]
author-avatar
文逸博166293
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有