热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据技术之Hadoop集群配置

 作者简介:大家好我是小唐同学(๑>؂؂>tmp.tar.gz和cat blk_1073741827>>tmp.tar.gz是把这两个拼接成一个jdk压缩包,然后解压发现

bbf48a5f21c2b1999ba1bd00b528c9e6.jpeg

 作者简介&#xff1a;大家好我是小唐同学(๑>؂<๑&#xff09;&#xff0c;好久不见&#xff0c;为梦想而努力的小唐又回来了&#xff0c;让我们一起加油&#xff01;&#xff01;&#xff01;

a56fe417a24fd8e65dc73fb5db10b46e.gif

 

个人主页&#xff1a;小唐同学(๑>؂<๑&#xff09;的博客主页

目前再学习大数据&#xff0c;现在在初级阶段-刚学Hadoop&#xff0c;若有错误&#xff0c;请指正

目录

 

一&#xff0c;集群部署规划

二&#xff0c;配置文件说明

三&#xff0c;配置集群&#xff1a;

&#xff08;1&#xff09;配置核心文件&#xff1a;

 四&#xff0c;格式化节点&#xff1a;

五&#xff0c;启动集群&#xff1a;

 六&#xff0c;测试集群&#xff1a;

&#xff08;1&#xff09;上传小文件&#xff1a;

 (2)上传大文件&#xff1a;


 

一&#xff0c;集群部署规划

&#xff08;1&#xff09;NameNode和SecondaryNameNode不要安装在同一台服务器

&#xff08;2&#xff09;ResourceManager也很消耗内存&#xff0c;不要和NameNode,SecondaryNamenode配置在同一台机器上b4ebf8c9a9504308a90f214a5874bf75.png

二&#xff0c;配置文件说明

置文件和自定义配置文件

 

&#xff08;1&#xff09;默认配置文件有四种对应Hadoop的四大组件

886d278d15ab41e7a2c02044a8329244.png

  &#xff08;2&#xff09;自定义配置文件&#xff1a;
core-site.xml hdfs-site.xml , yarn-site.xml mapred-site.xml

这四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上&#xff0c;用户可以根据项目需求重新进行修改配置。&#xff08;$HADOOP_HOME为Hadoop的安装路径&#xff09;e8b5e0688a6a4a6ca1e61623a6f17d41.png

f1f45b664f6f4a698bea9d0a814718b2.pngc976d26fa8a8469ea3883dab2c5af009.png

273c65506a0546b69d4e1500e37cb8f5.png

 

三&#xff0c;配置集群&#xff1a;

&#xff08;1&#xff09;配置核心文件&#xff1a;

        配置core-site.xml




fs.defaultFS
hdfs://hadoop102:8020



hadoop.tmp.dir
/opt/module/hadoop-3.1.3/data


 

19ee7fa140d74cc2858f6c942a0328c0.png

 配置hdfs-site.xml



dfs.namenode.http-address
hadoop102:9870



dfs.namenode.secondary.http-addresshadoop104:9868

43ab946491884bb7b8d6e132b571ebe2.png

 

 




yarn.nodemanager.aux-services

mapreduce_shuffle



yarn.resourcemanager.hostname

hadoop103



yarn.nodemanager.env-whitelist
JAVA_HOME,HADOOP_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME


3afe9d7859fe421f8058ff423b95174d.png





mapreduce.framework.name


yarn



024ef966e7a94fb694ca8d73267d8ccb.png

配置完成后在集群上分发配置好的Hadoop配置文件

4515908da5ba4bef8fa354ad107d2f6c.png

 aefbfddb52c64352b90d00a554bd8843.png

上述集群配置完成后&#xff0c;在群起集群之前需要配置workers文件

a0b6d43c73b4456da158864ccb1531af.png

 c8acbe4837314589b760b36939d6e31d.png

 

先切换到Hadoop的目录下

cd /opt/module/hadoop-3.1.3

 切换到Hadoop的文件夹下

cd etc/hadoop/

vim workers

上述命令进入workers文件下&#xff08;文件不允许有空格和空行&#xff09;

有几个节点就配置几个名称

ff747c8b3c274f4aaa898424e447db83.png

 配置完毕后需要分发一下   分别配置给其他集群内部的服务器

b8d01c7b20a742718d441da19f906978.png

 四&#xff0c;格式化节点&#xff1a;

        &#xff08;1&#xff09;如果集群是第一次启动&#xff0c;需要初始化&#xff08;格式化&#xff09;NameNode,在格式化的过程中我遇到了报错&#xff0c;通过阅读报错信息&#xff0c;重新配置了四个自定义配置文件&#xff08;建议报错先认真阅读&#xff09;

hdfs namenode -format

9bece3cbb4d5407f9f895102943fb219.png

 221935c0866845bb86361bc36b83c252.png

 上述格式化完成

五&#xff0c;启动集群&#xff1a;


启动集群在sbin目录下&#xff08;在Hadoop的安装目录下&#xff09;

ad1b1312101d4beea672140c473f302d.png

 启动HDFS&#xff1a;83f9276789584241882ff73791276caf.png

启动完毕后用命令jps(jps命令在Hadoop的安装路径下执行&#xff0c;是java提供的一个显示当前所有java进程pid的命令)

 7ea57ccf2aff4fc98d1d243875f3585f.png

 abb4069ac4a64d0c92f03240d7869480.png

 067d410da4e34bce92a26a81c4b3c006.png

 可以看到跟我们的集群规划相同

搜索 hadoop102:9870可以看到hdfs存储的数据信息f86329132fce49efaf78b6a908d6c790.png

 

在配置了ResourceManager的节点&#xff08;hadoop103&#xff09;启动YARN

3f152883db2f451890011488b61df6f9.png

可以看到三个进程符合集群规划

84b85cc377504fb0bc6b9ab91b642fa9.png

搜素  hadoop103:8088可以看到yarn的资源调度网页

68f8b7ca80404282ab2450043b9d5e7b.png

 六&#xff0c;测试集群&#xff1a;

上传文件到集群&#xff1a;

&#xff08;1&#xff09;上传小文件&#xff1a;
        a2a98bb3ddcc4917a14e149237ba3925.png        cb0915972d044b31b13a5e2c07c6af93.png

 

 上传带内容的文件到wcinput

26fcadf9b2024bcfa80f8462916ff6e5.png

a47581a78e8147e1a0cb3b1834838a67.png

07c868afd1224e59ae56be483d4d6c7b.png

 

 2c7f23be30304daf82e5d60dc41ea643.png

 (2)上传大文件&#xff1a;

 

1439b45e2fd541d6890aec6b9f5f75fa.png0ad2684cd03c4fceb56ab3a8c847110c.png

 回到根部录下可以看到有添加的数据&#xff0c;但是这只是个链接&#xff0c;方便展示&#xff0c;实际存储在datanode节点0e64f1becbbf4e719c31119f55858d6b.png

 5e909db7b84f48b49ac0552212ca6303.png

 刚开始初始化节点的时候只有name&#xff0c;现在存入数据后出现了data

数据存储的目录&#xff1a;32b115336b074f9fa25d75d0292e20ab.png

 

/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-2091296116-192.168.10.102-1677829450991/current/finalized/subdir0/subdir0

查看文件内容&#xff1a;
查看小文件直接cat即可

查看大文件&#xff1a;

cat blk_1073741826>>tmp.tar.gz和cat blk_1073741827>>tmp.tar.gz是把这两个拼接成一个jdk压缩包&#xff0c;然后解压发现就是上传的jdk压缩包&#xff0c;所以可以确定hdfs实际上内容存储的位置就是在这里。这里为什么会把jdk的压缩包分为两部分呢&#xff1f;原因就是在hadoop里存储的容量是128MB为一个块&#xff0c;然后jdk的压缩包有180MB&#xff0c;所以一个块存不下&#xff0c;需要两个块&#xff0c;注意块的序号是从0开始的

5966e8c487f443ac8f4c1435283d58eb.png

 Hadoop是具有高可用的&#xff0c;所以会有多个备份&#xff0c;不测试显示3分备份&#xff0c;所以在hadoop103,hadoop104上同样的路径有同样的数据

 

 

 


推荐阅读
  • 本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先,通过PuTTY工具实现远程连接至服务器。接着,检查当前系统的磁盘空间使用情况,确保有足够的空间进行后续操作,可使用 `df` 命令进行查看。此外,文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤,以及常见问题的解决方法,帮助用户顺利完成LAMP环境的搭建。 ... [详细]
  • 在 CentOS 6.5 系统上部署 VNC 服务器的详细步骤与配置指南
    在 CentOS 6.5 系统上部署 VNC 服务器时,首先需要确认 VNC 服务是否已安装。通常情况下,VNC 服务默认未安装。可以通过运行特定的查询命令来检查其安装状态。如果查询结果为空,则表明 VNC 服务尚未安装,需进行手动安装。此外,建议在安装前确保系统的软件包管理器已更新至最新版本,以避免兼容性问题。 ... [详细]
  • 在JavaWeb项目架构中,NFS(网络文件系统)的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录,提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用,包括配置、性能优化及常见问题的解决方案,旨在为开发者提供实用的技术参考。 ... [详细]
  • 如何在PHP中正确配置错误显示功能
    在PHP中正确配置错误显示功能的方法如下:首先,定位并打开“php.ini”配置文件;接着,将“display_errors”参数设置为“On”;最后,在PHP代码文件的顶部添加 `ini_set('display_errors', '1');` 以确保错误信息能够被正确显示。此外,建议在开发环境中启用此功能,而在生产环境中禁用,以避免敏感信息泄露。 ... [详细]
  • Linux入门教程第七课:基础命令与操作详解
    在本课程中,我们将深入探讨 Linux 系统中的基础命令与操作,重点讲解网络配置的相关知识。首先,我们会介绍 IP 地址的概念及其在网络协议中的作用,特别是 IPv4(Internet Protocol Version 4)的具体应用和配置方法。通过实际操作和示例,帮助初学者更好地理解和掌握这些基本技能。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 用阿里云的免费 SSL 证书让网站从 HTTP 换成 HTTPS
    HTTP协议是不加密传输数据的,也就是用户跟你的网站之间传递数据有可能在途中被截获,破解传递的真实内容,所以使用不加密的HTTP的网站是不 ... [详细]
  • 本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法,并解决了常见的配置失败问题。 ... [详细]
  • 本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先,按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库,用于存储时间序列数据;collectd 负责数据的采集与传输;Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接,便于用户参考和进一步了解其配置选项。通过本指南,读者可以轻松搭建一个高效的数据监控系统。 ... [详细]
  • CentOS 7 中 iptables 过滤表实例与 NAT 表应用详解
    在 CentOS 7 系统中,iptables 的过滤表和 NAT 表具有重要的应用价值。本文通过具体实例详细介绍了如何配置 iptables 的过滤表,包括编写脚本文件 `/usr/local/sbin/iptables.sh`,并使用 `iptables -F` 清空现有规则。此外,还深入探讨了 NAT 表的配置方法,帮助读者更好地理解和应用这些网络防火墙技术。 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • 在开发过程中,我最初也依赖于功能全面但操作繁琐的集成开发环境(IDE),如Borland Delphi 和 Microsoft Visual Studio。然而,随着对高效开发的追求,我逐渐转向了更加轻量级和灵活的工具组合。通过 CLIfe,我构建了一个高度定制化的开发环境,不仅提高了代码编写效率,还简化了项目管理流程。这一配置结合了多种强大的命令行工具和插件,使我在日常开发中能够更加得心应手。 ... [详细]
  • 深入探索Node.js新框架:Nest.js第六篇
    在本文中,我们将深入探讨Node.js的新框架Nest.js,并通过一个完整的示例来展示其强大功能。我们将使用多个装饰器创建一个基本控制器,该控制器提供了多种方法来访问和操作内部数据,涵盖了常见的CRUD操作。此外,我们还将详细介绍Nest.js的核心概念和最佳实践,帮助读者更好地理解和应用这一现代框架。 ... [详细]
  • 本文详细介绍了在Windows操作系统上使用Python 3.8.5编译支持CUDA 11和cuDNN 8.0.2的TensorFlow 2.3的步骤。文章不仅提供了详细的编译指南,还分享了编译后的文件下载链接,方便用户快速获取所需资源。此外,文中还涵盖了常见的编译问题及其解决方案,确保用户能够顺利进行编译和安装。 ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
author-avatar
不要破网名_329
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有