05.伪分布式、分布式搭建

作者：pop6959140 | 来源：互联网 | 2023-09-13 15:11

Hadoop：数据存储模块数据计算模块 dougcuttinghadoop之父分布式文件系统GFS，可用于处理海量网页的存储分布式计算框架MAPREDUCE，可用于处理海量网

Hadoop：

数据存储模块

数据计算模块

doug cutting //hadoop之父
//分布式文件系统GFS，可用于处理海量网页的存储
//分布式计算框架MAP REDUCE，可用于处理海量网页的索引计算问题

hadoop:
GFS ====> NDFS（Nutch distributed filesystem）===> HDFS
Mapreduce ====> Mapreduce

hadoop安装：
=========================================
本地模式：使用的存储系统，是Linux系统
1、将安装包通过winscp发送到centos家目录

2、解压安装包到/soft下
tar -xzvf hadoop-2.7.3.tar.gz -C /soft

3、进入到/soft下，建立符号链接
cd /soft
ln -s hadoop-2.7.3/ hadoop

4、配置环境变量 //sudo nano /etc/profile
# hadoop环境变量
export HADOOP_HOME=/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5、使环境变量生效
source /etc/profile

6、验证hadoop
hadoop version

7、测试hadoop
hdfs dfs -ls //列出
hdfs dfs -mkdir //创建文件夹
hdfs dfs -cat //查看文件内容
hdfs dfs -touchz //创建文件
hdfs dfs -rm //删除文件

伪分布式：使用Hadoop文件系统，只用一个主机

1、配置文件，使hadoop三种模式共存
1)进入hadoop配置文件夹
cd /soft/hadoop/etc/

2)重命名hadoop文件夹为local(本地模式)
mv hadoop local

3)拷贝local文件夹为pseudo和full
cp -r local pseudo
cp -r local full

4)创建hadoop符号链接指向pseudo
ln -s pseudo hadoop

2、修改配置文件
1)进入hadoop配置文件夹
cd /soft/hadoop/etc/hadoop

2)配置文件core-site.xml
---------------------------------------------

fs.defaultFS
hdfs://192.168.17.100/

3)配置文件hdfs-site.xml
---------------------------------------------

dfs.replication
1

4)配置文件mapred-site.xml
---------------------------------------------

mapreduce.framework.name
yarn

5)配置文件yarn-site.xml
---------------------------------------------

yarn.resourcemanager.hostname
192.168.17.100

yarn.nodemanager.aux-services
mapreduce_shuffle

6)修改hadoop-env.sh,修改第25行
---------------------------------------------
export JAVA_HOME=/soft/jdk

7)格式化文件系统
---------------------------------------------
hdfs namenode -format

8)启动hadoop
-----------------------------------------------
start-all.sh //其中要输入多次密码

9)通过jps查看进程 //java process
-------------------------------------------------
4018 DataNode
4195 SecondaryNameNode
4659 NodeManager
4376 ResourceManager
3885 NameNode
4815 Jps

体验hadoop：
====================================================

进入hadoop的web界面：
192.168.23.100:50070

列出hdfs的文件系统
hdfs dfs -ls /

在hdfs中创建文件
hdfs dfs -touchz /1.txt

上传文件到hdfs
hdfs dfs -put jdk.tar.gz /

从hdfs下载文件
hdfs dfs -get /1.txt

体验Mapreduce
1)创建文件hadoop.txt并添加数据

2)将hadoop.txt上传到hdfs
hdfs dfs -put hadoop.txt /

3)使用hadoop自带的demo进行单词统计
hadoop jar /soft/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /1.txt /out

4)通过web界面查看hadoop运行状态
http://192.168.23.100:8088

ssh： secure shell
===========================================
1、远程登录
2、在远程主机上执行命令

配置ssh免密登录

1、生成公私密钥对
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

-t //指定算法rsa
-P //指定一个字符串进行加密
-f //指定生成文件的位置

2、将公钥拷贝到其他节点
ssh-copy-id centos@192.168.23.100

3、测试ssh
ssh 192.168.17.100

4、停止hadoop
stop-all.sh

完全分布式：
=============================================

1、克隆主机 //链接克隆

2、打开s101-s104
3、修改主机名 //sudo nano /etc/hostname
101 => s101
102 => s102
103 => s103
104 => s104

4、修改静态ip //sudo nano /etc/sysconfig/network-scripts/ifcfg-ens33
100 => 101
100 => 102
100 => 103
100 => 104

5、重启客户机
reboot

6、修改hosts文件，修改主机名和ip的映射 // sudo nano /etc/hosts

192.168.17.101 s101
192.168.17.102 s102
192.168.17.103 s103
192.168.17.104 s104
192.168.17.105 s105
7、配置s101到其他主机的免密登陆
s101 => s101
     => s102
     => s103
     => s104

1)在s101生成公私密钥对
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

2)分别将公钥拷贝到其他节点
ssh-copy-id centos@s101
ssh-copy-id centos@s102
ssh-copy-id centos@s103
ssh-copy-id centos@s104

8、修改hadoop配置文件
0)修改hadoop符号链接，指向full
ln -sfT /soft/hadoop/etc/full /soft/hadoop/etc/hadoop

1)core-site.xml

                fs.defaultFS
                hdfs://s101

                hadoop.tmp.dir
                /home/centos/hadoop


2)hdfs-site.xml

                dfs.replication
                3


3)mapred-site.xml

                mapreduce.framework.name
                yarn


4)yarn-site.xml

                yarn.resourcemanager.hostname
                s101

                yarn.nodemanager.aux-services
                mapreduce_shuffle


5)hadoop-env.sh

第25行修改
export JAVA_HOME=/soft/jdk

6)修改slaves文件,将localhost改为
s102
s103
s104

7)同步配置文件
1.将其他节点的/soft/hadoop/etc删掉
ssh s102 rm -rf /soft/hadoop/etc
ssh s104 rm -rf /soft/hadoop/etc
ssh s103 rm -rf /soft/hadoop/etc

2.将本机的/soft/hadoop/etc分发到其他节点
scp -r /soft/hadoop/etc centos@s104:/soft/hadoop/
scp -r /soft/hadoop/etc centos@s103:/soft/hadoop/
scp -r /soft/hadoop/etc centos@s102:/soft/hadoop/

8)格式化hadoop文件系统
hdfs namenode -format

9)启动hadoop
start-all.sh

体验hadoop完全分布式：
============================================
1)打开web界面
192.168.23.101:50070

2)将hadoop.txt上传到hdfs
hdfs dfs -put hadoop.txt /

3)使用hadoop自带的demo进行单词统计
hadoop jar /soft/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /hadoop.txt /out

4)通过web界面查看hadoop运行状态
http://192.168.23.101:8088

推荐阅读

export
hadoop3.1.2 first programdefault wordcount (Mac)

hadoop3.1.2安装完成后的第一个实操示例程 ... [详细]

蜡笔小新 2024-10-15 11:11:55
default
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
filter
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
export
05Hadoop的HA搭建

前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK，配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]

蜡笔小新 2024-10-16 18:20:36
export
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
export
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
text
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
format
Hadoop + Spark安装(三) —— 调hadoop

***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]

蜡笔小新 2024-10-17 11:56:27
export
安装hadoop2.9.2jdk1.8centos7

安装JDK1.8查看JDK1.8的安装https:www.cnblogs.comTJ21p13208514.html安装hadoop上传hadoop下载hadoop地址http:m ... [详细]

蜡笔小新 2024-10-16 12:02:42
export
Hadoop之HDFS的概念理解

HDFS是什么？HDFS全称HadoopDistributedFileSystem，简称HDFS，是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高 ... [详细]

蜡笔小新 2024-10-12 10:52:32
config
hadoop完全分布式搭建

原文链接：hadoop完全分布式搭建主机分配以及地址要求：角色主机名IP地址Namenodemaster192.168.222.201Datanodeslave ... [详细]

蜡笔小新 2024-09-27 17:18:30
char
sqoop自定义分隔符的实现方法及步骤详解

本文介绍了在sqoop1.4.*版本中，如何实现自定义分隔符的方法及步骤。通过修改sqoop生成的java文件，并重新编译，可以满足实际开发中对分隔符的需求。具体步骤包括修改java文件中的一行代码，重新编译所需的hadoop包等。详细步骤和编译方法在本文中都有详细说明。 ... [详细]

蜡笔小新 2023-12-10 11:29:22
format
【原创】七、Hadoop 2.5.2+zookeeper高可用部署

一、原理（四大要点）（1）保证元数据一致（edits）namenode（fsimage edits）a、NFSb、journalnodec、zk（2）只有一台namenode对外提 ... [详细]

蜡笔小新 2024-10-15 12:25:58
filter
工作原理_一文理解 Spark 基础概念及工作原理

篇首语：本文由编程笔记#小编为大家整理，主要介绍了一文理解Spark基础概念及工作原理相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-10-14 04:29:30
format
安装并配置Hadoop伪分布模式

首先进入Downloads文件夹，执行wget-cURL命令将Hadoop2.7下载到Downloads文件夹然后如上图，等下载完毕后查看Downloads文件夹中已经有hadoop-2.7. ... [详细]

蜡笔小新 2024-10-12 18:32:51

pop6959140

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章