当前位置: 开发笔记 > 后端 > 正文

在VMware虚拟机中安装配置hadoop集群图文教程

作者：lucy719674 | 来源：互联网 | 2014-05-27 20:35

原创文档，转载请保留原文url地址hadoop俗称分布式计算，最早作为一个开源项目，最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样，虽然Hadoop最初十分简单，但随着近些年来大数据的兴起，其也获得了一个充分体现价值的舞台。这也正是业内普遍将

原创文档，转载请保留原文url地址

hadoop俗称分布式计算，最早作为一个开源项目，最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样，虽然Hadoop最初十分简单，但随着近些年来大数据的兴起，其也获得了一个充分体现价值的舞台。这也正是业内普遍将Hadoop看做是下一个Linux的原因。

本文介绍基于多台vmware虚拟机来安装hadoop集群的过程及方法，通过这个小的集群让您在本地电脑上就可以研究hadoop的相关工作过程，有人会有疑问在小的虚拟机集群上研究的结果，写的程序能否在大集群上工作正常？可以肯定的没问题的。

Hadoop的一个特性是线性增长特性，即当前数量情况下，处理时间是1，若是数据量加倍，后处理时间加倍，若是在这种情况下，处理能力也加倍则处理时间也是1.

正常情况hadoop需要较多的服务器才能搭建，但是我们在家里学习如何去找那么服务器，解决办法可以找几台pc机，在pc机上安装linux系统就可以了。

当然我们还有更简单的办法，就是找一台高性能的电脑，在电脑上安装虚拟机软件，里面创建若干台虚拟机，然后让这些虚拟机构成一个小的内部局域网络，在这个网络上我们安装linux软件， java软件，安装hadoop程序，我们就可以创建一个简单hadoop的研究系统，进行软件的开发调试，在这个小的分布式集群上开发的程序可以无缝移植到相同版本的hadoop（不同hadoop的版本兼容性不是很好，特别是低版本同高版本，他们的api也有些许变化）集群中。

如下是在笔者笔记本上构建的一个hadoop的虚拟机系统，相关网络拓扑结构如下：

vmware虚拟机下hadoop集群安装过程

虚拟机0，机器名称：db， ip：192.168.186.10

虚拟机1，机器名称：red， ip：192.168.186.11

虚拟机2，机器名称：mongdb， ip：192.168.186.12

虚拟机3，机器名称：nginx，ip：192.168.186.13

如上图， 4台虚拟机通过一个虚拟的交换机互联，开发机器也连接到这个虚拟交换机上，虚拟的交换机同adsl相连接，这样整个系统都可以直接上网了。

下面是几个虚拟机的典型配置，如下：

vmware虚拟机下hadoop集群安装过程

Db的配置，如上，这个机器的内存配置比较高，这个机器是机器的master服务器，需要较多的内存。因此配置了1.3g内存。

下面是red的配置， mongdb及nginx的配置同这个机器配置相同，配置如下：

vmware虚拟机下hadoop集群安装过程

这个机器的配置同db机器配置相同，仅仅是内存小了些，这里内存是188m，作为调试环境已经足够用了。

1. 网卡的Ip地址配置

采用静态ip配置方式，防止重新启动后dhcp分配新的ip后，造成不必要的混乱。配置如下：

vmware虚拟机下hadoop集群安装过程

2. Hosts文件配置

[root@db ~]# cat /etc/hosts

# Do not remove the following line, or various programs

# that require network functionality will fail.

127.0.0.1 localhost.localdomain localhost

::1 localhost6.localdomain6 localhost6

192.168.186.10 db

192.168.186.11 red

192.168.186.12 mongdb

192.168.186.13 nginx

vmware虚拟机下hadoop集群安装过程

需要确保每一台机器的 hosts文件配置如上图所示。

简便配置方法，在配置一台机器后，可以编写脚本实现自动将hosts文件复制到多台机器上。脚本如下：

[root@db ~]# cat update_hosts.sh

#!/bin/sh

for host in red mongdb nginx;do

echo $host

scp /etc/hosts root@${host}:/etc/

done

[root@db ~]#

主要这个脚本要在root下编写，然后赋予可以执行的权限（chmod a+x *.sh）, 然后在root权限下执行。脚本会自动完成hosts文件的复制工作。

上面过程完成后，分别登录每一台机器，把每一个服务器都ping一下，若是不通，在仔细检查一下。

3. Java配置

在每个虚拟机服务器上检查是否正确安装了java，是否配置了java的环境变量等

vmware虚拟机下hadoop集群安装过程

如上图， 1处输入 java -version，然后应该输出类似2处的输出，标识java已经正确安装了

同时采用3处的命令， env | grep JAVA_HOME 来检查环境变量是否正确配置了，若是没有配置java的环境变量则需要进行配置

若是您java还有安装请用下面命令安装

yum install java-1.7.0-openjdk

然后用下面命令配置环境变量。

vi /etc/profile

打开编辑的文件后，在文件最后面添加如下内容

JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.25/jre

JRE_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.25/jre

PATH=$PATH:$JAVA_HOME/bin

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export JAVA_HOME JRE_HOME PATH CLASSPATH

保存退出，最后运行下面命令，使配置生效

source /etc/profile

然后再次测试上面的过程，看看是否符合相关需要。如果您还没做到到网络搜索一下吧。

4. ssh免登录功能配置

Hadoop通过ssh进行相关管理工作，主要是hadoop的管理脚本通过ssh远程对各个服务器进行相关的管理，包括启动，停止等。

关于如何配置ssh的免密码登录，请参考下面文章的相关部分：

Hadoop1.2.1 Pseudo-Distributed伪分布模式配置

http://www.iigrowing.cn/hadoop1-2-1-pseudo-distributed-wei-fen-bu-mo-shi-pei-zhi.html

5. 关闭相关的防火墙

Hadoop程序在工作过程中，各个节点间有很多程序要进行通信，因此我们需要对防火墙做些处理，保证这些访问能正常工作。我们这里采用最简单的办法是关闭研究用集群虚拟机的全部防火墙.

在虚拟机中，启动setup程序

vmware虚拟机下hadoop集群安装过程

选择防火墙工作这一项

vmware虚拟机下hadoop集群安装过程

在下面的对话框中，选择如下特殊颜色的区域的相关选项，最后选择ok推出

vmware虚拟机下hadoop集群安装过程

6. 下载hadoop程序

推荐阅读

iis
阿里云ecs怎么配置php环境,阿里云ecs配置选择

阿里云ecs怎么配置php环境,阿里云ecs配置选择 ... [详细]

蜡笔小新 2024-12-23 11:12:07
nginx
网络运维工程师的前景与薪酬分析

网络运维工程师负责确保企业IT基础设施的稳定运行，保障业务连续性和数据安全。他们需要具备多种技能，包括搭建和维护网络环境、监控系统性能、处理突发事件等。本文将探讨网络运维工程师的职业前景及其平均薪酬水平。 ... [详细]

蜡笔小新 2024-12-26 14:35:04
log4j
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
log4j
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
static
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
go
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
service
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
sftp
告别传统文件传输，迎接新一代高效工具Croc

在现代网络环境中，两台计算机之间的文件传输需求日益增长。传统的FTP和SSH方式虽然有效，但其配置复杂、步骤繁琐，难以满足快速且安全的传输需求。本文将介绍一种基于Go语言开发的新一代文件传输工具——Croc，它不仅简化了操作流程，还提供了强大的加密和跨平台支持。 ... [详细]

蜡笔小新 2024-12-26 16:16:06
service
深入解析 Spring Security 用户认证机制

本文将详细介绍 Spring Security 中用户登录认证的核心流程，重点分析 AbstractAuthenticationProcessingFilter 和 AuthenticationManager 的工作原理。通过理解这些组件的实现，读者可以更好地掌握 Spring Security 的认证机制。 ... [详细]

蜡笔小新 2024-12-25 16:00:21
nginx
PHP编程语言及其在股市中的应用

本文将深入探讨PHP编程语言的基本概念，并解释PHP概念股的含义。通过详细解析，帮助读者理解PHP在Web开发和股票市场中的重要性。 ... [详细]

蜡笔小新 2024-12-25 15:02:45
nginx
深入解析Nginx中的Location指令及其属性

本文将详细探讨Nginx配置文件中关键的location指令，包括其三种匹配方式（精准匹配、普通匹配和正则匹配），以及如何在实际应用中灵活运用这些匹配规则。此外，还将介绍location下的重要子元素如root、alias和proxy_pass，并解释相关参数的使用方法。 ... [详细]

蜡笔小新 2024-12-24 17:53:47
nginx
提升网站安全性：隐藏Apache、Nginx和PHP版本号的详细指南

本文详细介绍如何通过修改配置文件来隐藏Apache、Nginx和PHP的版本号，从而增强网站的安全性。我们将提供具体的配置步骤，并解释这些设置的重要性。 ... [详细]

蜡笔小新 2024-12-24 10:21:12
static
Nginx 反向代理与负载均衡实验

本实验旨在通过配置 Nginx 实现反向代理和负载均衡，确保从北京本地代理服务器访问上海的 Web 服务器时，能够依次显示红、黄、绿三种颜色页面以验证负载均衡效果。 ... [详细]

蜡笔小新 2024-12-22 15:15:48
nginx
备战BAT面试：掌握这些MySQL核心问题

本文深入探讨了MySQL中常见的面试问题，包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析，帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]

蜡笔小新 2024-12-20 18:58:01
mvc
Python面试题精粹

本文档汇总了Python编程的基础与高级面试题目，涵盖语言特性、数据结构、算法以及Web开发等多个方面，旨在帮助开发者全面掌握Python核心知识。 ... [详细]

蜡笔小新 2024-12-19 20:26:25

lucy719674

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章