当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:Hadoop部署之Hadoop

作者：CHERRYMJM | 来源：互联网 | 2023-08-01 12:27

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Hadoop部署之Hadoop相关的知识，希望对你有一定的参考价值。一、Hadoop介绍

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Hadoop 部署之 Hadoop 相关的知识，希望对你有一定的参考价值。

一、Hadoop 介绍

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

技术分享图片

1、HDFS 介绍

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。

2、HDFS 组成

HDFS采用主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。NameNode作为主服务器，管理文件系统命名空间和客户端对文件的访问操作。DataNode管理存储的数据。HDFS支持文件形式的数据。

从内部来看，文件被分成若干个数据块，这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间，如打开、关闭、重命名文件或目录等，也负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写，并在NameNode的统一调度下进行数据库的创建、删除和复制工作。NameNode是所有HDFS元数据的管理者，用户数据永远不会经过NameNode。

技术分享图片

3、MapReduce 介绍

Hadoop MapReduce是google MapReduce 克隆版。

MapReduce是一种计算模型，用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

4、MapReduce 架构

Hadoop MapReduce采用Master/Slave（M/S）架构，如下图所示，主要包括以下组件：Client、JobTracker、TaskTracker和Task。

技术分享图片

JobTracker

JobTracker叫作业跟踪器，运行到主节点（Namenode）上的一个很重要的进程，是MapReduce体系的调度器。用于处理作业（用户提交的代码）的后台程序，决定有哪些文件参与作业的处理，然后把作业切割成为一个个的小task，并把它们分配到所需要的数据所在的子节点。

Hadoop的原则就是就近运行，数据和程序要在同一个物理节点里，数据在哪里，程序就跑去哪里运行。这个工作是JobTracker做的，监控task，还会重启失败的task（于不同的节点），每个集群只有唯一一个JobTracker，类似单点的NameNode，位于Master节点

TaskTracker

TaskTracker叫任务跟踪器，MapReduce体系的最后一个后台进程，位于每个slave节点上，与datanode结合（代码与数据一起的原则），管理各自节点上的task（由jobtracker分配），

每个节点只有一个tasktracker，但一个tasktracker可以启动多个JVM，运行Map Task和Reduce Task；并与JobTracker交互，汇报任务状态，

Map Task：解析每条数据记录，传递给用户编写的map(),并执行，将输出结果写入本地磁盘(如果为map-only作业，直接写入HDFS)。

Reducer Task：从Map Task的执行结果中，远程读取输入数据，对数据进行排序，将数据按照分组传递给用户编写的reduce函数执行。

二、Hadoop的安装

1、下载安装

# 下载安装包 wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz # 解压安装包 tar xf hadoop-2.7.3.tar.gz && mv hadoop-2.7.3 /usr/local/hadoop # 创建目录 mkdir -p /home/hadoop/{name,data,log,journal}

2、配置 Hadoop 环境变量

编辑文件/etc/profile.d/hadoop.sh。

# HADOOP ENV export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使 Hadoop 环境变量生效。

source /etc/profile.d/hadoop.sh
三、Hadoop 配置

1、配置 hadoop-env.sh

编辑文件/usr/local/hadoop/etc/hadoop/hadoop-env.sh，修改下面字段。

export JAVA_HOME=/usr/local/java export HADOOP_HOME=/usr/local/hadoop

2、配置 yarn-env.sh

编辑文件/usr/local/hadoop/etc/hadoop/yarn-env.sh，修改下面字段。

export JAVA_HOME=/usr/local/java

3、配置 DN 白名单 slaves

编辑文件/usr/local/hadoop/etc/hadoop/slaves

datanode01 datanode02 datanode03

4、配置核心组件 core-site.xml

编辑文件/usr/local/hadoop/etc/hadoop/core-site.xml，修改为如下：

fs.default.name hdfs://cluster1:9000 hadoop.tmp.dir /home/hadoop/data ha.zookeeper.quorum zk01:2181,zk02:2181,zk03:2181 dfs.permissions false io.file.buffer.size 131702

5、配置文件系统 hdfs-site.xml

编辑文件/usr/local/hadoop/etc/hadoop/hdfs-site.xml，修改为如下：

dfs.namenode.name.dir file:/home/hadoop/name dfs.datanode.data.dir file:/home/hadoop/data dfs.replication 2 dfs.webhdfs.enabled true dfs.nameservices cluster1

6、配置计算框架 mapred-site.xml

编辑文件/usr/local/hadoop/etc/hadoop/mapred-site.xml，修改为如下：

mapreduce.framework.name yarn mapred.local.dir /home/hadoop/data mapreduce.admin.map.child.java.opts -Xmx256m mapreduce.admin.reduce.child.java.opts -Xmx4096m mapred.child.java.opts -Xmx512m mapred.task.timeout 1200000 true dfs.hosts.exclude slaves.exclude mapred.hosts.exclude slaves.exclude

7、配置计算框架 yarn-site.xml

编辑文件/usr/local/hadoop/etc/hadoop/yarn-site.xml，修改为如下：

yarn.resourcemanager.hostname namenode01 yarn.resourcemanager.address ${yarn.resourcemanager.hostname}:8032 yarn.resourcemanager.scheduler.address ${yarn.resourcemanager.hostname}:8030 yarn.resourcemanager.webapp.address ${yarn.resourcemanager.hostname}:8088 yarn.resourcemanager.resource-tracker.address ${yarn.resourcemanager.hostname}:8031 yarn.resourcemanager.admin.address ${yarn.resourcemanager.hostname}:8033 yarn.scheduler.maximum-allocation-mb 983040 yarn.resourcemanager.scheduler.class yarn.resourcemanager.resource-tracker.address ${yarn.resourcemanager.hostname}:8031 yarn.resourcemanager.admin.address ${yarn.resourcemanager.hostname}:8033 yarn.scheduler.maximum-allocation-mb 8182 yarn.resourcemanager.scheduler.class org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler yarn.log-aggregation-enable true yarn.resourcemanager.scheduler.class org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler yarn.scheduler.maximum-allocation-vcores 512 yarn.scheduler.minimum-allocation-mb 2048 yarn.log-aggregation-enable true yarn.log-aggregation.retain-seconds 604800 yarn.nodemanager.resource.cpu-vcores 12 yarn.nodemanager.resource.memory-mb 8192 yarn.nodemanager.vmem-check-enabled false yarn.nodemanager.pmem-check-enabled false yarn.nodemanager.vmem-pmem-ratio 2.1 yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage 98.0 yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.auxservices.mapreduce.shuffle.class org.apache.hadoop.mapred.ShuffleHandler

8、将配置文件复制到其他服务节点

cd /usr/local/hadoop/etc/hadoop scp * datanode01:/usr/local/hadoop/etc/hadoop scp * datanode02:/usr/local/hadoop/etc/hadoop scp * datanode03:/usr/local/hadoop/etc/hadoop chown -R hadoop:hadoop /usr/local/hadoop chmod 755 /usr/local/hadoop/etc/hadoop
四、Hadoop 启动

1、格式化 HDFS(在NameNode01执行)

hdfs namenode -format hadoop-daemon.sh start namenode

2、重启 Hadoop(在NameNode01执行)

stop-all.sh start-all.sh
五、检查 Hadoop

1、检查JPS进程

[[email&＃160;protected] ~]# jps 17419 NameNode 17780 ResourceManager 18152 Jps [[email&＃160;protected] ~]# jps 27264 -- process information unavailable 2227 DataNode 1292 QuorumPeerMain 2509 Jps 2334 NodeManager [[email&＃160;protected] ~]# jps 13940 QuorumPeerMain 18980 DataNode 19093 NodeManager 27292 -- process information unavailable 32526 -- process information unavailable 19743 Jps [[email&＃160;protected] ~]# jps 19238 DataNode 19350 NodeManager 14215 QuorumPeerMain 27351 -- process information unavailable 20014 Jps

2、HDFS 的 WEB 界面

访问 http://192.168.1.200:50070/

技术分享图片

3、YARN 的 WEB 界面

访问 http://192.168.1.200:8088/

技术分享图片

六、MapReduce的WordCount验证

1、上传需要处理的文件到 hdfs。

[[email&＃160;protected] ~]# hadoop fs -put /root/anaconda-ks.cfg /anaconda-ks.cfg

2、进行 wordcount

[[email&＃160;protected] ~]# cd /usr/local/hadoop/share/hadoop/mapreduce/ [[email&＃160;protected] mapreduce]# hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /anaconda-ks.cfg /test 18/11/17 00:04:45 INFO client.RMProxy: Connecting to ResourceManager at namenode01/192.168.1.200:8032 18/11/17 00:04:45 INFO input.FileInputFormat: Total input paths to process : 1 18/11/17 00:04:45 INFO mapreduce.JobSubmitter: number of splits:1 18/11/17 00:04:45 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1541095016765_0004 18/11/17 00:04:46 INFO impl.YarnClientImpl: Submitted application application_1541095016765_0004 18/11/17 00:04:46 INFO mapreduce.Job: The url to track the job: http://namenode01:8088/proxy/application_1541095016765_0004/ 18/11/17 00:04:46 INFO mapreduce.Job: Running job: job_1541095016765_0004 18/11/17 00:04:51 INFO mapreduce.Job: Job job_1541095016765_0004 running in uber mode : false 18/11/17 00:04:51 INFO mapreduce.Job: map 0% reduce 0% 18/11/17 00:04:55 INFO mapreduce.Job: map 100% reduce 0% 18/11/17 00:04:59 INFO mapreduce.Job: map 100% reduce 100% 18/11/17 00:04:59 INFO mapreduce.Job: Job job_1541095016765_0004 completed successfully 18/11/17 00:04:59 INFO mapreduce.Job: Counters: 49 File System Counters FILE: Number of bytes read=1222 FILE: Number of bytes written=241621 FILE: Number of read operatiOns=0 FILE: Number of large read operatiOns=0 FILE: Number of write operatiOns=0 HDFS: Number of bytes read=1023 HDFS: Number of bytes written=941 HDFS: Number of read operatiOns=6 HDFS: Number of large read operatiOns=0 HDFS: Number of write operatiOns=2 Job Counters Launched map tasks=1 Launched reduce tasks=1 Data-local map tasks=1 Total time spent by all maps in occupied slots (ms)=1758 Total time spent by all reduces in occupied slots (ms)=2125 Total time spent by all map tasks (ms)=1758 Total time spent by all reduce tasks (ms)=2125 Total vcore-milliseconds taken by all map tasks=1758 Total vcore-milliseconds taken by all reduce tasks=2125 Total megabyte-milliseconds taken by all map tasks=1800192 Total megabyte-milliseconds taken by all reduce tasks=2176000 Map-Reduce Framework Map input records=38 Map output records=90 Map output bytes=1274 Map output materialized bytes=1222 Input split bytes=101 Combine input records=90 Combine output records=69 Reduce input groups=69 Reduce shuffle bytes=1222 Reduce input records=69 Reduce output records=69 Spilled Records=138 Shuffled Maps =1 Failed Shuffles=0 Merged Map outputs=1 GC time elapsed (ms)=99 CPU time spent (ms)=970 Physical memory (bytes) snapshot=473649152 Virtual memory (bytes) snapshot=4921606144 Total committed heap usage (bytes)=441450496 Shuffle Errors BAD_ID=0 COnNECTION=0 IO_ERROR=0 WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Input Format Counters Bytes Read=922 File Output Format Counters Bytes Written=941

3、查看结果

[[email&＃160;protected] mapreduce]# hadoop fs -cat /test/part-r-00000 # 11 #version=DEVEL 1 $6$kRQ2y1nt/B6c6ETs$ITy0O/E9P5p0ePWlHJ7fRTqVrqGEQf7ZGi5IX2pCA7l25IdEThUNjxelq6wcD9SlSa1cGcqlJy2jjiV9/lMjg/ 1 %addon 1 %end 2 %packages 1 --all 1 --boot-drive=sda 1 --bootproto=dhcp 1 --device=enp1s0 1 --disable 1 --drives=sda 1 --enable 1 --enableshadow 1 --hostname=localhost.localdomain 1 --initlabel 1 --ipv6=auto 1 --isUtc 1 --iscrypted 1 --location=mbr 1 --Onboot=off 1 --only-use=sda 1 --passalgo=sha512 1 --reserve-mb=‘auto‘ 1 --type=lvm 1 --vckeymap=cn 1 --xlayouts=‘cn‘ 1 @^minimal 1 @core 1 Agent 1 Asia/Shanghai 1 CDROM 1 Keyboard 1 Network 1 Partition 1 Root 1 Run 1 Setup 1 System 4 Use 2 auth 1 authorization 1 autopart 1 boot 1 bootloader 2 cdrom 1 clearing 1 clearpart 1 com_redhat_kdump 1 configuration 1 first 1 firstboot 1 graphical 2 ignoredisk 1 information 3 install 1 installation 1 keyboard 1 lang 1 language 1 layouts 1 media 1 network 2 on 1 password 1 rootpw 1 the 1 timezone 2 zh_CN.UTF-8 1
七、Hadoop 的使用

查看fs帮助命令： hadoop fs -help
查看HDFS磁盘空间： hadoop fs -df -h
创建目录： hadoop fs -mkdir
上传本地文件： hadoop fs -put
查看文件： hadoop fs -ls
查看文件内容： hadoop fs –cat
复制文件： hadoop fs -cp
下载HDFS文件到本地： hadoop fs -get
移动文件： hadoop fs -mv
删除文件： hadoop fs -rm -r -f
删除文件夹： hadoop fs -rm –r

推荐阅读

foreach
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
char
FastDFS Nginx 扩展模块的源代码解析与技术剖析

FastDFS Nginx 扩展模块的源代码解析与技术剖析 ... [详细]

蜡笔小新 2024-11-04 20:15:18
string
Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？

Java能否直接通过HTTP将字节流绕过HEAP写入SD卡？ ... [详细]

蜡笔小新 2024-11-08 09:14:47
char
Unity与MySQL连接过程中出现的新挑战及解决方案探析

Unity与MySQL连接过程中出现的新挑战及解决方案探析 ... [详细]

蜡笔小新 2024-11-11 09:55:19
string
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
char
使用Maven JAR插件将单个或多个文件及其依赖项合并为一个可引用的JAR包

本文介绍了如何利用Maven中的maven-assembly-plugin插件将单个或多个Java文件及其依赖项打包成一个可引用的JAR文件。首先，需要创建一个新的Maven项目，并将待打包的Java文件复制到该项目中。通过配置maven-assembly-plugin，可以实现将所有文件及其依赖项合并为一个独立的JAR包，方便在其他项目中引用和使用。此外，该方法还支持自定义装配描述符，以满足不同场景下的需求。 ... [详细]

蜡笔小新 2024-11-09 01:59:29
char
利用 Delphi 中的 IdTCPServer 和 IdTCPClient 实现高效文件传输

本文介绍了如何利用 Delphi 中的 IdTCPServer 和 IdTCPClient 控件实现高效的文件传输。这些控件在默认情况下采用阻塞模式，并且服务器端已经集成了多线程处理，能够支持任意大小的文件传输，无需担心数据包大小的限制。与传统的 ClientSocket 相比，Indy 控件提供了更为简洁和可靠的解决方案，特别适用于开发高性能的网络文件传输应用程序。 ... [详细]

蜡笔小新 2024-11-08 16:34:23
client
小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限

小王详解：内部网络中最易理解的NAT原理剖析，挑战你的认知极限 ... [详细]

蜡笔小新 2024-11-07 15:11:42
client
Docker入门指南：初探容器化技术

Docker入门指南：初探容器化技术摘要：Docker 是一个使用 Go 语言开发的开源容器平台，旨在实现应用程序的构建、分发和运行的标准化。通过将应用及其依赖打包成轻量级的容器，Docker 能够确保应用在任何环境中都能一致地运行，从而提高开发和部署的效率。本文将详细介绍 Docker 的基本概念、核心功能以及如何快速上手使用这一强大的容器化工具。 ... [详细]

蜡笔小新 2024-11-06 10:32:10
export
HBase在金融大数据迁移中的应用与挑战

随着最后一台设备的下线，标志着超过10PB的HBase数据迁移项目顺利完成。目前，新的集群已在新机房稳定运行超过两个月，监控数据显示，新集群的查询响应时间显著降低，系统稳定性大幅提升。此外，数据消费的波动也变得更加平滑，整体性能得到了显著优化。 ... [详细]

蜡笔小新 2024-10-31 14:06:06
string
Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨

在《Cocos2d-x学习笔记：基础概念解析与内存管理机制深入探讨》中，详细介绍了Cocos2d-x的基础概念，并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解，例如在处理鱼的运动过程中，可以通过编写自定义函数来动态计算角度变化，利用CallFunc回调机制实现高效的游戏逻辑控制。此外，文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏，为开发者提供了实用的编程技巧和最佳实践。 ... [详细]

蜡笔小新 2024-11-11 14:49:31
string
帝国CMS中的信息归档功能详解及其重要性

本文详细解析了帝国CMS中的信息归档功能，并探讨了其在内容管理中的重要性。通过归档功能，用户可以有效地管理和组织大量内容，提高网站的运行效率和用户体验。此外，文章还介绍了如何利用该功能进行数据备份和恢复，确保网站数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-09 20:42:14
version
Spring框架的核心组件与架构解析

Spring框架的核心组件与架构解析 ... [详细]

蜡笔小新 2024-11-06 14:16:03
export
构建高可用性Spark分布式集群：大数据环境下的最佳实践

在构建高可用性的Spark分布式集群过程中，确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对（使用 `ssh-keygen -t rsa` 命令并保持默认设置），可以实现这一目标。此外，还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中，以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能，建议采用负载均衡和故障恢复机制，并定期进行系统监控和维护。 ... [详细]

蜡笔小新 2024-11-02 14:18:50
client
HDFS基础知识与数据读写机制详解

本文详细介绍了HDFS的基础知识及其数据读写机制。首先，文章阐述了HDFS的架构，包括其核心组件及其角色和功能。特别地，对NameNode进行了深入解析，指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系，并通过持久化方案确保数据的可靠性和高可用性。此外，还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]

蜡笔小新 2024-10-30 11:58:25

CHERRYMJM

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章