热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

05.伪分布式、分布式搭建

 Hadoop: 数据存储模块 数据计算模块 dougcuttinghadoop之父分布式文件系统GFS,可用于处理海量网页的存储分布式计算框架MAPREDUCE,可用于处理海量网

 
Hadoop:
 
数据存储模块
 
数据计算模块
 
doug cutting //hadoop之父
//分布式文件系统GFS,可用于处理海量网页的存储
//分布式计算框架MAP REDUCE,可用于处理海量网页的索引计算问题
 
 
hadoop:
GFS ====> NDFS(Nutch distributed filesystem)===> HDFS
Mapreduce ====> Mapreduce
 
 
 
hadoop安装:
=========================================
本地模式:使用的存储系统,是Linux系统
1、将安装包通过winscp发送到centos家目录
 
2、解压安装包到/soft下
tar -xzvf hadoop-2.7.3.tar.gz -C /soft
 
3、进入到/soft下,建立符号链接
cd /soft
ln -s hadoop-2.7.3/ hadoop
 
4、配置环境变量 //sudo nano /etc/profile
# hadoop环境变量
export HADOOP_HOME=/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
 
5、使环境变量生效
source /etc/profile
 
6、验证hadoop
hadoop version
 
7、测试hadoop
hdfs dfs -ls //列出
hdfs dfs -mkdir //创建文件夹
hdfs dfs -cat //查看文件内容
hdfs dfs -touchz //创建文件
hdfs dfs -rm //删除文件
 
 
 
伪分布式:使用Hadoop文件系统,只用一个主机
 
1、配置文件,使hadoop三种模式共存
1)进入hadoop配置文件夹
cd /soft/hadoop/etc/
 
2)重命名hadoop文件夹为local(本地模式)
mv hadoop local
 
3)拷贝local文件夹为pseudo和full
cp -r local pseudo
cp -r local full
 
4)创建hadoop符号链接指向pseudo
ln -s pseudo hadoop
 
2、修改配置文件
1)进入hadoop配置文件夹
cd /soft/hadoop/etc/hadoop
 
2)配置文件core-site.xml
---------------------------------------------


fs.defaultFS
hdfs://192.168.17.100/


 
3)配置文件hdfs-site.xml
---------------------------------------------


dfs.replication
1


 
4)配置文件mapred-site.xml
---------------------------------------------


mapreduce.framework.name
yarn


 
5)配置文件yarn-site.xml
---------------------------------------------


yarn.resourcemanager.hostname
192.168.17.100


yarn.nodemanager.aux-services
mapreduce_shuffle


 
6)修改hadoop-env.sh,修改第25行
---------------------------------------------
export JAVA_HOME=/soft/jdk
 
 
7)格式化文件系统
---------------------------------------------
hdfs namenode -format
 
 
8)启动hadoop
-----------------------------------------------
start-all.sh //其中要输入多次密码
 
 
9)通过jps查看进程 //java process
-------------------------------------------------
4018 DataNode
4195 SecondaryNameNode
4659 NodeManager
4376 ResourceManager
3885 NameNode
4815 Jps
 
 
体验hadoop:
====================================================
 
进入hadoop的web界面:
192.168.23.100:50070
 
列出hdfs的文件系统
hdfs dfs -ls /
 
在hdfs中创建文件
hdfs dfs -touchz /1.txt
 
上传文件到hdfs
hdfs dfs -put jdk.tar.gz /
 
从hdfs下载文件
hdfs dfs -get /1.txt
 
体验Mapreduce
1)创建文件hadoop.txt并添加数据
 
2)将hadoop.txt上传到hdfs
hdfs dfs -put hadoop.txt /
 
3)使用hadoop自带的demo进行单词统计
hadoop jar /soft/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar  wordcount /1.txt /out
 
4)通过web界面查看hadoop运行状态
http://192.168.23.100:8088
 
 
 
 
ssh: secure shell
===========================================
1、远程登录
2、在远程主机上执行命令
 
 
配置ssh免密登录
 
1、生成公私密钥对
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
 
-t //指定算法rsa
-P //指定一个字符串进行加密
-f //指定生成文件的位置
 
 
2、将公钥拷贝到其他节点
ssh-copy-id centos@192.168.23.100
 
3、测试ssh
ssh 192.168.17.100
 
4、停止hadoop
stop-all.sh
 
 
 
完全分布式:
=============================================
 
1、克隆主机 //链接克隆

 


 


 

 


 
2、打开s101-s104
3、修改主机名 //sudo nano /etc/hostname
101 => s101
102 => s102
103 => s103
104 => s104
 
4、修改静态ip //sudo nano /etc/sysconfig/network-scripts/ifcfg-ens33
100 => 101
100 => 102
100 => 103
100 => 104
 
5、重启客户机
reboot
 
 
6、修改hosts文件,修改主机名和ip的映射 // sudo nano /etc/hosts
 
192.168.17.101 s101
192.168.17.102 s102
192.168.17.103 s103
192.168.17.104 s104
192.168.17.105 s105
7、配置s101到其他主机的免密登陆
s101 => s101
     => s102
     => s103
     => s104
 
1)在s101生成公私密钥对
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
 
2)分别将公钥拷贝到其他节点
ssh-copy-id centos@s101
ssh-copy-id centos@s102
ssh-copy-id centos@s103
ssh-copy-id centos@s104
 
8、修改hadoop配置文件
0)修改hadoop符号链接,指向full
ln -sfT /soft/hadoop/etc/full /soft/hadoop/etc/hadoop
 
1)core-site.xml


       


                fs.defaultFS
                hdfs://s101
       


                hadoop.tmp.dir
                /home/centos/hadoop
       

 
 
2)hdfs-site.xml


       


                dfs.replication
                3
       

 
 
 
3)mapred-site.xml


       


                mapreduce.framework.name
                yarn
       

 
 
4)yarn-site.xml


       


                yarn.resourcemanager.hostname
                s101
       
       


                yarn.nodemanager.aux-services
                mapreduce_shuffle
       

 
 
5)hadoop-env.sh
 
第25行修改
export JAVA_HOME=/soft/jdk
 
 
6)修改slaves文件,将localhost改为
s102
s103
s104
 
7)同步配置文件
1.将其他节点的/soft/hadoop/etc删掉
ssh s102 rm -rf /soft/hadoop/etc
ssh s104 rm -rf /soft/hadoop/etc
ssh s103 rm -rf /soft/hadoop/etc
 
2.将本机的/soft/hadoop/etc分发到其他节点
scp -r /soft/hadoop/etc centos@s104:/soft/hadoop/
scp -r /soft/hadoop/etc centos@s103:/soft/hadoop/
scp -r /soft/hadoop/etc centos@s102:/soft/hadoop/
 
8)格式化hadoop文件系统
hdfs namenode -format
 
9)启动hadoop
start-all.sh
 
体验hadoop完全分布式:
============================================
1)打开web界面
192.168.23.101:50070
 
2)将hadoop.txt上传到hdfs
hdfs dfs -put hadoop.txt /
 
3)使用hadoop自带的demo进行单词统计
hadoop jar /soft/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar  wordcount /hadoop.txt /out
 
4)通过web界面查看hadoop运行状态
http://192.168.23.101:8088
 
 
 
 
 
 
 
 
 


推荐阅读
  • hadoop3.1.2 first programdefault wordcount (Mac)
    hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
  • 安装hadoop2.9.2jdk1.8centos7
    安装JDK1.8查看JDK1.8的安装https:www.cnblogs.comTJ21p13208514.html安装hadoop上传hadoop下载hadoop地址http:m ... [详细]
  • HDFS是什么?HDFS全称HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高 ... [详细]
  • hadoop完全分布式搭建
    原文链接:hadoop完全分布式搭建主机分配以及地址要求:角色主机名IP地址Namenodemaster192.168.222.201Datanodeslave ... [详细]
  • 本文介绍了在sqoop1.4.*版本中,如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件,并重新编译,可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码,重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]
  • 【原创】七、Hadoop 2.5.2+zookeeper高可用部署
    一、原理(四大要点)(1)保证元数据一致(edits)namenode(fsimage edits)a、NFSb、journalnodec、zk(2)只有一台namenode对外提 ... [详细]
  • 工作原理_一文理解 Spark 基础概念及工作原理
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了一文理解Spark基础概念及工作原理相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 首先进入Downloads文件夹,执行wget-cURL命令将Hadoop2.7下载到Downloads文件夹然后如上图,等下载完毕后查看Downloads文件夹中已经有hadoop-2.7. ... [详细]
author-avatar
pop6959140
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有