热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

CentOS7上安装伪分布式Hadoop

1.下载安装包下载hadoop安装包官网地址:https:hadoop.apache.orgreleases.html版本:建议使用hadoop-2.7.3.tar.

1.下载安装包

下载hadoop安装包

官网地址:https://hadoop.apache.org/releases.html

版本:建议使用hadoop-2.7.3.tar.gz

系统环境:CentOS 7

注:需要装有JDK支持,版本1.8或者更高

2.解压安装包

  • 默认软件安装路径为 /usr/soft,因此先传输安装包到该路径下
cd /usr/soft
tar -zxvf hadoop-2.7.3.tar.gz

3.环境变量配置

vi /ect/profile

文件末尾换行追加以下内容

export HADOOP_HOME=/usr/soft/hadoop-2.7.3
export HADOOP_MAPRED_HOME=HADOOP_HOME
export HADOOP_COMMON_HOME=HADOOP_HOME
export HADOOP_HDFS_HOME=HADOOP_HOME
export YARN_HOME=HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=HADOOP_HOME/lib/native
export PATH=PATH:HADOOP_HOME/sbin:HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

修改完配置后,更新文件

source /etc/profile

4.伪分布式配置

文件目录:/usr/soft/hadoop-2.7.3/etc/hadoop/

需要修改的文件:core-site.xml、hdfs-site.xml、mapred-site.xml 、yarn-site.xml

 

a) core-site.xml

先在hadoop文件夹内touch一个目录名为tmp

cd /usr/soft/hadoop-2.7.3
mkdir tmp

向文件中的configuration标签内添加以下内容:

1)fs.defaultFS = hdfs://192.168.0.103:9000 默认文件系统(本地默认 file:/位置)此处端口与HBASE端口设成一样

2)hadoop.tmp.dir=/usr/soft/hadoop-2.7.3/tmp

 

 

b) hdfs.site.xml

dfs.replication = 1 (副本个数,最少3个伪分布只写1个),进程于主机关系

 

 

c) mapred-site.xml

目录内并没有全名为mapred-site.xml的文件,但是有一个名为:mapred-site.xml.template

复制该文件重新命名为mapred-site.xml;

cd /usr/soft/hadoop-2.7.3/etc/hadoop/
cp mapred-site.xml.template mapred-site.xml

修改配置文件:Mapreduce.framewok.name=yarn ,设置映射化简模型框架为yarn


mapreduce.framewok.name
yarn

 

 

 

d) yarn-site.xml

Yarn.resourcemanager.localhost=localhost //yarn站点名称

Yarn.nodemanager.aux-service=mapreduce_shuffle //辅助节点管理

 

 

e) hadoop-env.sh (可选)

最好将jdk配置的相对路径更改为绝对路径

 

文件修改完成!

 

5.配置SSH(安全套接字处理)

目的是使用脚步启动远程服务器的启动,必须使用shell登陆远程服务,但每个登陆都需要输入密码就非常麻烦,所有需要配置无密配置,需要在NameNode上生成私钥,把公钥发给DataNode

a) 生成秘钥对

ssh-keygen -t rsa

 

b)把公钥拷贝到秘钥库中

伪分布式时,复制到自己

cd ~/.ssh/
cat id_rsa.pub >> authorized_keys

完全分布式时,复制到DataNode(另一个计算机节点)

scp  root@主机名:~/.ssh/id_rsa.pub  ~/.ssh/id_rsa.pub
cat  ~/.ssh/id_rsa.pub  >> ~/.ssh/authorized_keys

 

c) 把authorized_key权限设置为600

chmod 600 ~/.ssh/authorized_keys

 

注:想在宿主机中访问hadoop站点步骤

修改虚拟机中/etc/hosts文件删除127.0.0.1信息

增加信息

本机IP master
本机IP slave
本机IP localhost

 

6.格式化NameNode

hdfs namenode -format

如果提示没找到命令,重新检查第三步环境变量配置

 

7.启动Hadoop

启动命令(都存放在sbin 文件夹下)

cd /usr/soft/hadoop-2.7.3/sbin/

start-all.sh
或
start-dfs.sh 
start-yarn.sh

 

8 检查启动状态

浏览器访问地址,出现页面即成功

本机地址:50070


推荐阅读
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 安装hadoop2.9.2jdk1.8centos7
    安装JDK1.8查看JDK1.8的安装https:www.cnblogs.comTJ21p13208514.html安装hadoop上传hadoop下载hadoop地址http:m ... [详细]
  • hadoop3.1.2 first programdefault wordcount (Mac)
    hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • Vue应用预渲染技术详解与实践 ... [详细]
  • 在Ubuntu系统中配置Python环境变量是确保项目顺利运行的关键步骤。本文介绍了如何将Windows上的Django项目迁移到Ubuntu,并解决因虚拟环境导致的模块缺失问题。通过详细的操作指南,帮助读者正确配置虚拟环境,确保所有第三方库都能被正确识别和使用。此外,还提供了一些实用的技巧,如如何检查环境变量配置是否正确,以及如何在多个虚拟环境之间切换。 ... [详细]
  • 本文详细介绍了在 Vue.js 前端框架中集成 vue-i18n 插件以实现多语言支持的方法。通过具体的配置步骤和示例代码,帮助开发者快速掌握如何在项目中实现国际化功能,提升用户体验。同时,文章还探讨了常见的多语言切换问题及解决方案,为开发人员提供了实用的参考。 ... [详细]
  • 在处理遗留数据库的映射时,反向工程是一个重要的初始步骤。由于实体模式已经在数据库系统中存在,Hibernate 提供了自动化工具来简化这一过程,帮助开发人员快速生成持久化类和映射文件。通过反向工程,可以显著提高开发效率并减少手动配置的错误。此外,该工具还支持对现有数据库结构进行分析,自动生成符合 Hibernate 规范的配置文件,从而加速项目的启动和开发周期。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 1、概述hdfs文件系统主要设计为了存储大文件的文件系统;如果有个TB级别的文件,我们该怎么存储呢?分布式文件系统未出现的时候࿰ ... [详细]
  • 未定义的打字稿记录:探索其成因与解决方案 ... [详细]
author-avatar
Andy
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有