热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

快速搭建_快速搭建HadoopHiveZoopkeeperSqoop环境进入Sqoop学习环境

篇首语:本文由编程笔记#小编为大家整理,主要介绍了快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了快速搭建Hadoop-Hive-Zoopkeeper-Sqoop环境进入Sqoop学习环境相关的知识,希望对你有一定的参考价值。


原文链接:

https://www.toutiao.com/i6771763211927552523/

CDH简单了解

CDH: C:cloudera(公司) D:distribute H:Hadoop

解决了大数据Hadoop 2.x生态系统中各个框架的版本兼容问题,不用自己编译, CDH适合商用,版本更新比较慢,也可以选择其他版本。

CDH版本的安装

在线:不推荐,受网速影响

离线:rpm包,tar包

之前已经安装使用过Apache版本的Hadoop,这次为了区分,我们再单独见一个cdh目录,用于安装cdh版本的Hadoop、Hive和Sqoop。在使用sqoop需要先部署CDH版本的Hadoop&Hive,CDH版本和apache版本的服务不要混用,只开启CDH或者只开启apache服务就可以。

安装过程(YUM源已安装好、系统版本CentOS6.5、java版本是1.7)

首先我们先创建好目录

技术图片

准备好安装包

技术图片

创建目录 mkdir –p /opt/bigdata

解压安装包

tar -zxvf sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/bigdata/

tar -zxvf hive-0.13.1-cdh5.3.6.tar.gz -C /opt/bigdata/

tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz -C /opt/bigdata/

技术图片

我们进入hadoop目录,把share下doc目录东西删除掉,这个用处不大

技术图片

配置三个env(hadoop,mapred,yarn)文件

export JAVA_HOME= /usr/lib/jvm/java-1.7.0-openjdk.x86_64

技术图片

编辑三个文件

技术图片

编辑内容

技术图片技术图片技术图片

4个site.xml文件

core:(修改主机名,tmp.dir目录并在linux下创建相应目录,用户名)

hdfs:(修改主机名)

mapred:需先重命名(修改主机名)

yarn:(修改主机名)

 

core-site.xml

 

 

fs.defaultFS

hdfs://mastercdh:8020

 

hadoop.tmp.dir

/opt/module/cdh/hadoop-2.5.0-cdh5.3.6/data/tmp

 

技术图片

hdfs-site.xml

 

 

 

dfs.replication

1

 

 

dfs.permissions.enabled

false

 

dfs.namenode.secondary.http-address

mastercdh:50090

技术图片

将这个文件重命名为mapred-site.xml

技术图片技术图片

mapred-site.xml

 

 

 

mapreduce.framework.name

yarn

 

 

mapreduce.jobhistory.address

mastercdh:10020

 

mapreduce.jobhistory.webapp.address

mastercdh:19888

技术图片

yarn-site.xml

 

 

 

yarn.nodemanager.aux-services

mapreduce_shuffle

 

 

yarn.resourcemanager.hostname

mastercdh

 

yarn.log-aggregation-enable

true

 

yarn.log-aggregation.retain-seconds

106800

技术图片

格式化namenode

$ bin/hdfs namenode –format

技术图片

启动服务

开启各服务:

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh start secondarynamenode

sbin/mr-jobhistory-daemon.sh start historyserver

sbin/yarn-daemon.sh start resourcemanager

sbin/yarn-daemon.sh start nodemanager

关闭服务

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh stop datanode

sbin/hadoop-daemon.sh stop secondarynamenode

sbin/mr-jobhistory-daemon.sh stop historyserver

sbin/yarn-daemon.sh stop resourcemanager

sbin/yarn-daemon.sh stop nodemanager

我们开启服务

技术图片

配置SSH免密登陆可使用:

$ sbin/start-dfs.sh

$ sbin/start-yarn.sh

$ sbin/start-all.sh

 

技术图片

我们访问下,和apache版本相比,页面颜色有变化

技术图片

安装mysql

检查下是否已下载还有卸载残留

rpm -qa | grep mysql

find / -name mysql

技术图片

看来还是有的,通过rm -rf将以上目录删掉即可,另外顺便把配置文件/etc/my.cnf也删掉吧,用rm –f

技术图片

安装mysql

yum -y install mysql mysql-server

安装mysql扩展

yum -y install mysql-connector-odbc mysql-devel libdbi-dbd-mysql

启动mysql

service mysqld start

技术图片

设置开启启动: chkconfig mysqld on

技术图片

检查下

chkconfig | grep mysql

技术图片

设置登录密码:mysqladmin -u root password ‘password‘

进入数据库,查询用户信息

技术图片

设置远程登录权限

grant all privileges on *.* to ‘root‘@‘%‘ identified by ‘password‘ with grant option;

技术图片

删除用户信息

delete from user where user=‘root‘ and host=‘127.0.0.1‘;

技术图片

刷新信息

flush privileges;

技术图片

update user set password = password("password") where user ="root" and host = "mastercdh";

flush privileges;

技术图片

重启mysqld服务

service mysqld restart

技术图片

进入解压的hive目录中配置文件目录

技术图片

先重命名hive-default.xml.template

mv hive-default.xml.template hive-site.xml

技术图片

再重命名hive-env.sh.template

mv hive-env.sh.template hive-env.sh

技术图片

再重命名hive-log4j.properties.template

mv hive-log4j.properties.template hive-log4j.properties

技术图片

依次配置

首先hive-env.sh

HADOOP_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HIVE_CONF_DIR=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

技术图片

编辑hive-site.xml,我们输入4000dd删除原来的内容

技术图片

输入配置文件

 

 

javax.jdo.option.ConnectionURL

jdbc:mysql://mastercdh:3306/cdhmetastore?createDatabaseIfNotExist=true

 

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

 

javax.jdo.option.ConnectionUserName

root

 

javax.jdo.option.ConnectionPassword

password

 

hive.cli.print.current.db

true

 

 

 

hive.cli.print.header

true

 

技术图片

配置hive-log4j.properties

hive.log.dir=/opt/bigdata/hive-0.13.1-cdh5.3.6/logs

技术图片

我们将准备好的mysql的jar包上传到lib目录下

mysql-connector-java-5.1.27-bin.jar

技术图片

 

技术图片

切换到Hadoop目录,建立目录,并修改权限

/user/hive/warehouse为Hive存放数据的目录

bin/hdfs dfs -mkdir -p /user/hive/warehouse

bin/hdfs dfs -chmod g+w /user/hive/warehouse

bin/hdfs dfs -chmod g+w /tmp

技术图片

启动客户端使用Hive bin/hive就可以了

技术图片

 

解压zookeeper

tar -zxvf zookeeper-3.4.5-cdh5.3.6.tar.gz -C /opt/bigdata/

技术图片

进入zookkeeper目录,创建存放数据的目录

技术图片

在conf目录里

cp -a zoo_sample.cfg zoo.cfg

技术图片

然后修改:dataDir= /opt/bigdata/zookeeper-3.4.5-cdh5.3.6/zkData

技术图片

启动

sbin/zkServer.sh start

可以去查看状态:sbin/zkServer.sh status

技术图片

部署sqoop

解压sqoop后

配置conf/sqoop-env.sh

复制: cp -a sqoop-env-template.sh sqoop-env.sh

或直接重命名重命名hive-env.sh (去掉.template)

技术图片

编辑文件

export HADOOP_COMMON_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HADOOP_MAPRED_HOME=/opt/bigdata/hadoop-2.5.0-cdh5.3.6

export HIVE_HOME=/opt/bigdata/hive-0.13.1-cdh5.3.6

export ZOOCFGDIR=/opt/bigdata/zookeeper-3.4.5-cdh5.3.6

技术图片

拷贝jdbc驱动包达到lib目录

技术图片

查看帮助信息:bin/sqoop help

技术图片

测试:sqoop连接mysql

bin/sqoop list-databases --connect jdbc:mysql://mastercdh:3306/ --username root --password password

技术图片


推荐阅读
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • 我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]
  • 本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境,提高数据处理速度和查询效率。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • 前言折腾了一段时间hadoop的部署管理,写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动,我已经把部署的步骤写成脚本,各位只需要按着本文把脚本执行完,整个环境基本就部署 ... [详细]
  • 使用clouderaquickstartvm无配置快速部署Hadoop应用
    http:zzj270919.blog.163.comblogstatic68997776201522561659999目录:通过CDH网站下载cloudera-vm ... [详细]
  • 本文介绍了Tomcat的基本操作,包括启动、关闭及首次访问的方法,并详细讲解了如何在IDEA中创建Web项目,配置Servlet及其映射,以及如何将项目部署到Tomcat。 ... [详细]
  • 本文探讨了如何在 Spring MVC 框架下,通过自定义注解和拦截器机制来实现细粒度的权限管理功能。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • Flume 开源分布式日志收集系统
    为什么80%的码农都做不了架构师?Flume--开源分布式日志收集系统Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统 ... [详细]
  • 关于hadoop及相关模块的安装,自己下载模块安装的话较为麻烦,有配置、版本对应的些许问题,使用cloudera集成好的平台也不错 ... [详细]
  • 深入解析Unity3D游戏开发中的音频播放技术
    在游戏开发中,音频播放是提升玩家沉浸感的关键因素之一。本文将探讨如何在Unity3D中高效地管理和播放不同类型的游戏音频,包括背景音乐和效果音效,并介绍实现这些功能的具体步骤。 ... [详细]
author-avatar
手浪用户2602881857
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有