Hadoop2.6.0-cdh5.4.0集群环境搭建和Apache-Hive、Sqoop的安装

作者：好的吧 | 来源：互联网 | 2023-05-19 03:24

搭建此环境主要用来hadoop的学习，因此我们的操作直接在root用户下，不涉及HA。Software:Hadoop2.6.0-cdh5.4.0Apache-hive-2.1.0

搭建此环境主要用来hadoop的学习，因此我们的操作直接在root用户下，不涉及HA。

Software:

 Hadoop 2.6.0-cdh5.4.0
 Apache-hive-2.1.0-bin  
 Sqoop-1.4.6-cdh5.5.2  
 JDK1.7.0_79

集群信息：

一个主节点，2个从节点。

192.168.75.128 master 
192.168.75.129 slave01
192.168.75.130 slave02

搭建步骤：

搭建步骤不详细化，主要把相关的hadoop的配置和关键操作写出来。

修改主机名

vim /etc/sysconfig/network(永久修改)

修改主机名IP映射

vim /etc/hosts

这里要注意IP在前面，主机名在后面，由于我颠倒位置，导致了主机名和IP无法进行映射。

SSH免密码登陆

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

将每个节点的ssh秘钥互相拷贝到各自的authorized_keys，实现各个节点的免密码登陆。

安装JDK

…

安装Hadoop

这里主要是hadoop的配置文件的修改。

core-site.xml:

<configuration>
<property>
    <name>fs.defaultFSname>
    <value>hdfs://master:9000value>
    <description>NameNode URIdescription>
property>
<property>
    <name>hadoop.tmp.dirname>
    <value>/data/hadoop/tmpvalue>
property>
<property>
      <name>hadoop.proxyuser.root.groupsname>
      <value>*value>
      <description>Allow the superuser oozie to impersonate any members of the group group1 and group2description>
    property>
<property>
      <name>hadoop.proxyuser.root.hostsname>
      <value>*value>
      <description>The superuser can connect only from host1 and host2 to impersonate a userdescription>
property>
configuration>

hadoop-env.sh:

主要配置下java的安装路径

# The java implementation to use.
export JAVA_HOME=/data/jdk1.7.0_79

hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replicationname>
        <value>2value>
    property>
    <property>
        <name>dfs.namenode.name.dirname>
        <value>file:///data/hadoop/hadoopdata/hdfs/namenodevalue>
    property>
    <property>
        <name>dfs.datanode.data.dirname>
        <value>file:///data/hadoop/hadoopdata/hdfs/datanodevalue>
    property>
    <property>
        <name>dfs.namenode.secondary.http-addressname>
        <value>master:50090value>
    property>
    <property>
     <name>dfs.permissionsname>
     <value>falsevalue>
   property>
configuration>

mapred-env.sh:

export JAVA_HOME=/data/jdk1.7.0_79

mapred-site.xml:

<configuration>
    <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
        <description>Execution framework set to Hadoop YARN.description>
    property>
configuration>

slaves:

配置从节点都是哪些。

slave01
slave02

yarn-env.sh:

主要也是对java的安装路径进行修改。

# some Java parameters
export JAVA_HOME=/data/jdk1.7.0_79

yarn-site.xml:

<configuration>


    <property>
        <name>yarn.resourcemanager.hostnamename>
        <value>mastervalue>
    property>
    <property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
        <description>Shuffle service that needs to be set for Map Reduce applications.description>
    property>
configuration>

配置完成之后，我们需要做的事情是:

配置hadoop和jdk的环境变量在/etc/profile文件里
将jdk、hadoop和/etc/profile配置文件通过scp命令分发到各个节点上，命令格式如下：

scp -r hadoop/   root@slave01:/data

通过source /etc/profile 使环境变量立即生效！

由于hadoop的节点之间需要通信（RPC机制），这样一来就需要监听对应的端口，这里我就直接将防火墙关闭了，命令如下:

chkconfig  iptables off

格式化namenode:

首次启动需要格式化节点:

hadoop namenode –format

启动hadoop:

./start-all.sh

hadoop安装成功后，我们可以通过访问：http://master:8088/cluster和http://master:50070/dfshealth.html#tab-overview查看到下面的关于hadoop的信息。

这里写图片描述
从上图我们可以看到集群的总内存大小、CPU的总核数、以及活着的总节点数。

datanode的信息：

In Service表示datanode节点正在服务中。

两个datanode信息

Hadoop集群安装完毕！

安装Hive

hive只需要在主节点安装一个就好了。它主要是将SQL解析为MR任务。
将hive安装包解压之后，主要对配置文件做下修改。

hive-env.sh:

# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/data/hadoop/

# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/data/apache-hive-2.1.0-bin/conf
#Folder containing extra ibraries required for hive #compilation/execution can be controlled by:
export HIVE_AUX_JARS_PATH=/data/apache-hive-2.1.0-bin/lib

hive-site.xml:

主要对存储hive元数据信息的库-mysql的连接信息做配置。

<configuration>
<property>  
  <name>javax.jdo.option.ConnectionURLname>  
  <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8value>  
  <description>JDBC connect string for a JDBC metastoredescription>  
property>  
<property>  
  <name>javax.jdo.option.ConnectionDriverNamename>  
  <value>com.mysql.jdbc.Drivervalue>  
  <description>Driver class name for a JDBC metastoredescription>  
property>  
<property>  
  <name>javax.jdo.option.ConnectionUserNamename>  
  <value>rootvalue>
  <description>username to use against metastore databasedescription>  
property>  
<property>  
  <name>javax.jdo.option.ConnectionPasswordname>  
  <value>123456value>  
  <description>password to use against metastore databasedescription>  
property>
 <property> 
      <name>hive.server2.thrift.portname> 
      <value>10000value> 
 property>
 <property>
       <name>hive.server2.thrift.bind.hostname>
       <value>hive安装节点的IPvalue>
 property>
    <property>
        <name>datanucleus.readOnlyDatastorename>
        <value>falsevalue>
    property>
    <property> 
        <name>datanucleus.fixedDatastorename>
        <value>falsevalue> 
    property>
    <property> 
        <name>datanucleus.autoCreateSchemaname> 
        <value>truevalue> 
    property>
    <property>
        <name>datanucleus.autoCreateTablesname>
        <value>truevalue>
    property>
    <property>
        <name>datanucleus.autoCreateColumnsname>
        <value>truevalue>
    property>
  <property>
    <name>hive.exec.dynamic.partition.modename>
    <value>nonstrictvalue>
   property>
configuration>

记得将mysql驱动包扔到hive的lib里。

因为hive的元数据是存在mysql里，所以需要事先安装mysql环境。

安装的时候，主要这几个命令会经常用到：

#连接mysql数据库
#设置密码

use mysql;
update user set password=password('密码') where user='root';
flush privileges;

#设置Mysql远程访问
grant all privileges on *.* to 'root'@'%' identified by '密码' with grant option;

最后配置下hive的环境变量：

export HIVE_HOME=/data/apache-hive-2.1.0-bin/
export PATH=${HIVE_HOME}/bin:$PATH

安装Sqoop

Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

安装

将sqoop安装包解压

sqoop配置文件修改：

#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/data/hadoop/

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/data/hadoop/

#set the path to where bin/hbase is available
#export HBASE_HOME=/home/hadoop/software/hbase

#Set the path to where bin/hive is available
export HIVE_HOME=/data/apache-hive-2.1.0-bin/

#Set the path for where zookeper config dir is
#export ZOOCFGDIR=/home/hadoop/software/zookeeper

配置Sqoop的环境变量：

export SQOOP_HOME=/data/sqoop/
export PATH=${SQOOP_HOME}/bin:$PATH

sqoop导数据命令：

sqoop import -m 1 --connect jdbc:mysql://master:3306/test --username root --password 123456    --table test  --target-dir  /data/test

sqoop导数据成功的信息：

这里写图片描述

至此，hadoop集群、Hive和Sqoop的安装就完成了！

推荐阅读

match
DVWA学习笔记系列：深入理解CSRF攻击机制

DVWA学习笔记系列：深入理解CSRF攻击机制 ... [详细]

蜡笔小新 2024-11-11 13:19:51
match
Android 中的 exported 属性详解与应用

在 Android 开发中，`android:exported` 属性用于控制组件（如 Activity、Service、BroadcastReceiver 和 ContentProvider）是否可以被其他应用组件访问或与其交互。若将此属性设为 `true`，则允许外部应用调用或与之交互；反之，若设为 `false`，则仅限于同一应用内的组件进行访问。这一属性对于确保应用的安全性和隐私保护至关重要。 ... [详细]

蜡笔小新 2024-11-10 14:14:26
input
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
process
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
settings
在Ubuntu系统中安装Android SDK的详细步骤及解决“Failed to fetch URL https://dlssl.google.com/”错误的方法

在Ubuntu 11.10 x64系统中安装Android SDK的详细步骤，包括配置环境变量和解决“Failed to fetch URL https://dlssl.google.com/”错误的方法。本文详细介绍了如何在该系统上顺利安装并配置Android SDK，确保开发环境的稳定性和高效性。此外，还提供了解决网络连接问题的实用技巧，帮助用户克服常见的安装障碍。 ... [详细]

蜡笔小新 2024-11-09 03:04:54
ip
Amoeba 优化 MySQL 读写分离性能

Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具，Amoeba 能够高效地处理应用程序的请求，并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例，从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力，还有效减少了主数据库的负担，确保了数据的一致性和可靠性。 ... [详细]

蜡笔小新 2024-11-08 19:19:47
schema
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
settings
基于Net Core 3.0与Web API的前后端分离开发：Vue.js在前端的应用

本文介绍了如何使用Net Core 3.0和Web API进行前后端分离开发，并重点探讨了Vue.js在前端的应用。后端采用MySQL数据库和EF Core框架进行数据操作，开发环境为Windows 10和Visual Studio 2019，MySQL服务器版本为8.0.16。文章详细描述了API项目的创建过程、启动步骤以及必要的插件安装，为开发者提供了一套完整的开发指南。 ... [详细]

蜡笔小新 2024-11-11 10:58:21
spring
深入解析几种常用的Java后端开发框架组合及其应用场景

本文详细探讨了几种常用的Java后端开发框架组合及其具体应用场景。通过对比分析Spring Boot、MyBatis、Hibernate等框架的特点和优势，结合实际项目需求，为开发者提供了选择合适框架组合的参考依据。同时，文章还介绍了这些框架在微服务架构中的应用，帮助读者更好地理解和运用这些技术。 ... [详细]

蜡笔小新 2024-11-11 10:12:51
schema
使用JDBC实现ActiveMQ消息持久化机制深入解析

本文深入解析了通过JDBC实现ActiveMQ消息持久化的机制。JDBC能够将消息可靠地存储在多种关系型数据库中，如MySQL、SQL Server、Oracle和DB2等。采用JDBC持久化方式时，数据库会自动生成三个关键表：`activemq_msgs`、`activemq_lock`和`activemq_ACKS`，分别用于存储消息数据、锁定信息和确认状态。这种机制不仅提高了消息的可靠性，还增强了系统的可扩展性和容错能力。 ... [详细]

蜡笔小新 2024-11-10 14:41:02
ip
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
数组
优化Nginx与PHP的高效配置方法

在优化Nginx与PHP的高效配置过程中，许多教程提供的配置方法存在诸多问题或不良实践。本文将深入探讨这些常见错误，并详细介绍如何正确配置Nginx和PHP，以实现更高的性能和稳定性。我们将从Nginx配置文件的基本指令入手，逐步解析每个关键参数的最优设置，帮助读者理解其背后的原理和实际应用效果。 ... [详细]

蜡笔小新 2024-11-09 18:24:15
数组
艾伟深入解析：WCF Binding模型中的绑定元素详解

本文深入解析了WCF Binding模型中的绑定元素，详细介绍了信道、信道管理器、信道监听器和信道工厂的概念与作用。从对象创建的角度来看，信道管理器负责信道的生成。具体而言，客户端的信道通过信道工厂进行实例化，而服务端则通过信道监听器来接收请求。文章还探讨了这些组件之间的交互机制及其在WCF通信中的重要性。 ... [详细]

蜡笔小新 2024-11-09 17:13:19
tree
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
import
Python 程序转换为 EXE 文件：详细解析 .py 脚本打包成独立可执行文件的方法与技巧

在开发了几个简单的爬虫 Python 程序后，我决定将其封装成独立的可执行文件以便于分发和使用。为了实现这一目标，首先需要解决的是如何将 Python 脚本转换为 EXE 文件。在这个过程中，我选择了 Qt 作为 GUI 框架，因为之前对此并不熟悉，希望通过这个项目进一步学习和掌握 Qt 的基本用法。本文将详细介绍从 .py 脚本到 EXE 文件的整个过程，包括所需工具、具体步骤以及常见问题的解决方案。 ... [详细]

蜡笔小新 2024-11-09 14:59:47

好的吧

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章