大数据技术之Hadoop集群配置

作者：不要破网名_329 | 来源：互联网 | 2023-09-09 14:59

作者简介&＃xff1a;大家好我是小唐同学(๑>؂؂>tmp.tar.gz和cat blk_1073741827>>tmp.tar.gz是把这两个拼接成一个jdk压缩包&＃xff0c;然后解压发现

作者简介&＃xff1a;大家好我是小唐同学(๑>؂<๑&＃xff09;&＃xff0c;好久不见&＃xff0c;为梦想而努力的小唐又回来了&＃xff0c;让我们一起加油&＃xff01;&＃xff01;&＃xff01;

个人主页&＃xff1a;小唐同学(๑>؂<๑&＃xff09;的博客主页

目前再学习大数据&＃xff0c;现在在初级阶段-刚学Hadoop&＃xff0c;若有错误&＃xff0c;请指正

一&＃xff0c;集群部署规划

二&＃xff0c;配置文件说明

三&＃xff0c;配置集群&＃xff1a;

&＃xff08;1&＃xff09;配置核心文件&＃xff1a;

四&＃xff0c;格式化节点&＃xff1a;

五&＃xff0c;启动集群&＃xff1a;

六&＃xff0c;测试集群&＃xff1a;

&＃xff08;1&＃xff09;上传小文件&＃xff1a;

(2)上传大文件&＃xff1a;

一&＃xff0c;集群部署规划

&＃xff08;1&＃xff09;NameNode和SecondaryNameNode不要安装在同一台服务器

&＃xff08;2&＃xff09;ResourceManager也很消耗内存&＃xff0c;不要和NameNode,SecondaryNamenode配置在同一台机器上

二&＃xff0c;配置文件说明

置文件和自定义配置文件

&＃xff08;1&＃xff09;默认配置文件有四种对应Hadoop的四大组件

&＃xff08;2&＃xff09;自定义配置文件&＃xff1a;
core-site.xml , hdfs-site.xml , yarn-site.xml , mapred-site.xml

这四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上&＃xff0c;用户可以根据项目需求重新进行修改配置。&＃xff08;$HADOOP_HOME为Hadoop的安装路径&＃xff09;

三&＃xff0c;配置集群&＃xff1a;

&＃xff08;1&＃xff09;配置核心文件&＃xff1a;

配置core-site.xml

fs.defaultFS hdfs://hadoop102:8020 hadoop.tmp.dir /opt/module/hadoop-3.1.3/data

配置hdfs-site.xml

dfs.namenode.http-address hadoop102:9870 dfs.namenode.secondary.http-addresshadoop104:9868

yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname hadoop103 yarn.nodemanager.env-whitelist JAVA_HOME,HADOOP_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

mapreduce.framework.name yarn

配置完成后在集群上分发配置好的Hadoop配置文件

上述集群配置完成后&＃xff0c;在群起集群之前需要配置workers文件

先切换到Hadoop的目录下

cd /opt/module/hadoop-3.1.3

切换到Hadoop的文件夹下

cd etc/hadoop/

vim workers

上述命令进入workers文件下&＃xff08;文件不允许有空格和空行&＃xff09;

有几个节点就配置几个名称

配置完毕后需要分发一下分别配置给其他集群内部的服务器

四&＃xff0c;格式化节点&＃xff1a;

&＃xff08;1&＃xff09;如果集群是第一次启动&＃xff0c;需要初始化&＃xff08;格式化&＃xff09;NameNode,在格式化的过程中我遇到了报错&＃xff0c;通过阅读报错信息&＃xff0c;重新配置了四个自定义配置文件&＃xff08;建议报错先认真阅读&＃xff09;

hdfs namenode -format

上述格式化完成

五&＃xff0c;启动集群&＃xff1a;

启动集群在sbin目录下&＃xff08;在Hadoop的安装目录下&＃xff09;

启动HDFS&＃xff1a;

启动完毕后用命令jps(jps命令在Hadoop的安装路径下执行&＃xff0c;是java提供的一个显示当前所有java进程pid的命令)

可以看到跟我们的集群规划相同

搜索 hadoop102:9870可以看到hdfs存储的数据信息

在配置了ResourceManager的节点&＃xff08;hadoop103&＃xff09;启动YARN

可以看到三个进程符合集群规划

搜素 hadoop103:8088可以看到yarn的资源调度网页

六&＃xff0c;测试集群&＃xff1a;

上传文件到集群&＃xff1a;

&＃xff08;1&＃xff09;上传小文件&＃xff1a;

上传带内容的文件到wcinput

(2)上传大文件&＃xff1a;

回到根部录下可以看到有添加的数据&＃xff0c;但是这只是个链接&＃xff0c;方便展示&＃xff0c;实际存储在datanode节点

刚开始初始化节点的时候只有name&＃xff0c;现在存入数据后出现了data

数据存储的目录&＃xff1a;

/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-2091296116-192.168.10.102-1677829450991/current/finalized/subdir0/subdir0

查看文件内容&＃xff1a;
查看小文件直接cat即可

查看大文件&＃xff1a;

cat blk_1073741826>>tmp.tar.gz和cat blk_1073741827>>tmp.tar.gz是把这两个拼接成一个jdk压缩包&＃xff0c;然后解压发现就是上传的jdk压缩包&＃xff0c;所以可以确定hdfs实际上内容存储的位置就是在这里。这里为什么会把jdk的压缩包分为两部分呢&＃xff1f;原因就是在hadoop里存储的容量是128MB为一个块&＃xff0c;然后jdk的压缩包有180MB&＃xff0c;所以一个块存不下&＃xff0c;需要两个块&＃xff0c;注意块的序号是从0开始的

Hadoop是具有高可用的&＃xff0c;所以会有多个备份&＃xff0c;不测试显示3分备份&＃xff0c;所以在hadoop103,hadoop104上同样的路径有同样的数据

推荐阅读

php
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
php
在 CentOS 6.5 系统上部署 VNC 服务器的详细步骤与配置指南

在 CentOS 6.5 系统上部署 VNC 服务器时，首先需要确认 VNC 服务是否已安装。通常情况下，VNC 服务默认未安装。可以通过运行特定的查询命令来检查其安装状态。如果查询结果为空，则表明 VNC 服务尚未安装，需进行手动安装。此外，建议在安装前确保系统的软件包管理器已更新至最新版本，以避免兼容性问题。 ... [详细]

蜡笔小新 2024-11-07 11:12:58
web
JavaWeb项目架构中的NFS文件服务器实现与优化

在JavaWeb项目架构中，NFS（网络文件系统）的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录，提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用，包括配置、性能优化及常见问题的解决方案，旨在为开发者提供实用的技术参考。 ... [详细]

蜡笔小新 2024-11-06 15:58:12
web
如何在PHP中正确配置错误显示功能

在PHP中正确配置错误显示功能的方法如下：首先，定位并打开“php.ini”配置文件；接着，将“display_errors”参数设置为“On”；最后，在PHP代码文件的顶部添加 `ini_set('display_errors', '1');` 以确保错误信息能够被正确显示。此外，建议在开发环境中启用此功能，而在生产环境中禁用，以避免敏感信息泄露。 ... [详细]

蜡笔小新 2024-11-05 23:42:42
ip
Linux入门教程第七课：基础命令与操作详解

在本课程中，我们将深入探讨 Linux 系统中的基础命令与操作，重点讲解网络配置的相关知识。首先，我们会介绍 IP 地址的概念及其在网络协议中的作用，特别是 IPv4（Internet Protocol Version 4）的具体应用和配置方法。通过实际操作和示例，帮助初学者更好地理解和掌握这些基本技能。 ... [详细]

蜡笔小新 2024-11-04 14:54:54
web
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
web
用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS

HTTP协议是不加密传输数据的，也就是用户跟你的网站之间传递数据有可能在途中被截获，破解传递的真实内容，所以使用不加密的HTTP的网站是不 ... [详细]

蜡笔小新 2024-11-13 14:02:50
format
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
ip
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
php
CentOS 7 中 iptables 过滤表实例与 NAT 表应用详解

在 CentOS 7 系统中，iptables 的过滤表和 NAT 表具有重要的应用价值。本文通过具体实例详细介绍了如何配置 iptables 的过滤表，包括编写脚本文件 `/usr/local/sbin/iptables.sh`，并使用 `iptables -F` 清空现有规则。此外，还深入探讨了 NAT 表的配置方法，帮助读者更好地理解和应用这些网络防火墙技术。 ... [详细]

蜡笔小新 2024-11-11 18:33:22
go
在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧

在 CentOS 7 环境中安装和配置 Redis 时，需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程，并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外，还探讨了如何优化性能和确保数据安全，帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]

蜡笔小新 2024-11-11 18:27:44
web
CLIfe：我的高效开发环境配置

在开发过程中，我最初也依赖于功能全面但操作繁琐的集成开发环境（IDE），如Borland Delphi 和 Microsoft Visual Studio。然而，随着对高效开发的追求，我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe，我构建了一个高度定制化的开发环境，不仅提高了代码编写效率，还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件，使我在日常开发中能够更加得心应手。 ... [详细]

蜡笔小新 2024-11-07 18:32:20
import
深入探索Node.js新框架：Nest.js第六篇

在本文中，我们将深入探讨Node.js的新框架Nest.js，并通过一个完整的示例来展示其强大功能。我们将使用多个装饰器创建一个基本控制器，该控制器提供了多种方法来访问和操作内部数据，涵盖了常见的CRUD操作。此外，我们还将详细介绍Nest.js的核心概念和最佳实践，帮助读者更好地理解和应用这一现代框架。 ... [详细]

蜡笔小新 2024-11-02 15:46:43
command
在Windows上使用Python 3.8.5编译支持CUDA 11和cuDNN 8.0.2的TensorFlow 2.3，并提供编译后的文件下载链接

本文详细介绍了在Windows操作系统上使用Python 3.8.5编译支持CUDA 11和cuDNN 8.0.2的TensorFlow 2.3的步骤。文章不仅提供了详细的编译指南，还分享了编译后的文件下载链接，方便用户快速获取所需资源。此外，文中还涵盖了常见的编译问题及其解决方案，确保用户能够顺利进行编译和安装。 ... [详细]

蜡笔小新 2024-10-24 13:06:46
main
05Hadoop的HA搭建

前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK，配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]

蜡笔小新 2024-10-16 18:20:36

不要破网名_329

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章