当前位置: 开发笔记 > 编程语言 > 正文

开发笔记:大数据HDFS集群搭建

作者：deavilacampuzano | 来源：互联网 | 2023-09-13 16:56

篇首语：本文由编程笔记#小编为大家整理，主要介绍了大数据---HDFS集群搭建相关的知识，希望对你有一定的参考价值。

一、准备工作

　　1.准备几台机器，我这里使用VMware准备了四台机器，一个name node，三个data node。

　　VMware安装虚拟机：https://www.cnblogs.com/nijunyang/p/12001312.html

　　2.Hadoop生态几乎都是用的java开发的，因此四台机器还需要安装JDK。

　　3.集群内主机域名映射，将四台机器的IP和主机名映射分别写到hosts文件中(切记主机名不要带非法字符，图片中的下划线”_”请忽略)

　　vim /etc/hosts

　　配好一个之后可以直接将这个复制到其他机器上面去，不用每台都去配置：

　　scp /etc/hosts nijunyang69:/etc/

　　scp /etc/hosts nijunyang70:/etc/

　　scp /etc/hosts nijunyang71:/etc/

二、hdfs集群安装

　　1.下载hadoop安装包到linux服务器上面，并进行解压，我这里使用的的2.8.5，

　　tar -zxvf hadoop-2.8.5.tar.gz

　　2.hadoop指定java环境变量：

　　hadoop-2.8.5/etc/hadoop/hadoop-env.sh 文件中指定java环境变量：

　　export JAVA_HOME=/soft/jdk1.8.0_191

　　3.配置核心参数：

默认参数：https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

　　　　1)指定hadoop的默认文件系统为：hdfs

　　　　2)指定hdfs的namenode节点为哪台机器

　　　　修改/etc/hadoop/core-site.xml 指定hadoop默认文件系统为hdfs,并且指定name node

　　　　<configuration>
　　　　　　<property>
　　　　　　　　<name>fs.defaultFSname>
　　　　　　　　<value>hdfs://nijunyang68:9000/value>
　　　　　　property>
　　　　configuration>

　　　　3) 指定namenode存储数据的本地目录

　　　　4) 指定datanode存放文件块的本地目录

　　　　修改/etc/hadoop/hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dirname>
<value>/hadoop/hdpdata/name/value>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>/hadoop/hdpdata/datavalue>
property>
configuration>

　　　　每台机器都执行同样的操作，配置好上述配置，可以使用scp -r /soft/hadoop-2.8.5 nijunyang69:/soft 这个命令将第一台机器配置好的全部打包拷贝到另外机器上面去。

　　4.配置hadoop环境变量

　　5.初始化namenode：hadoop namenode -format

　　这时我们设置的namenode数据目录下面就会初始化出来对应的文件夹

　　6.启动namenode：在之前指定的namenode上面执行：hadoop-daemon.sh start namenode

　　Jps查看可以看到一个namenode的java进程，同时通过默认的50070端口可以进行web访问

　　可以看到现在HDFS的容量还是0，因为我还没有启动datanode

　　7.依次启动datanode：hadoop-daemon.sh start datanode

　　同样可以看到一个datanode的java进程启动了，再看web页面这个时候的hdfs容量大小差不多就是三个datanode之和了。

　　至此整个hdfs集群基本就搭建完毕了，中间的一个小插曲，主机名一定不要带”.” “/” “_”等特殊符号，否则启动无服务的时候可能报错无法启动：Does not contain a valid host

三、脚本一键启动集群

　　1.在启动的机器上配置SSH免密登录集群所有机器，在任意一台机器配置都可以

　　1)生成秘钥：ssh-keygen

　　2)设置免密连接：

　　ssh-copy-id nijunyang68

　　ssh-copy-id nijunyang69

　　ssh-copy-id nijunyang70

　　ssh-copy-id nijunyang71

　　设置好之后就可以当前机器直接通过SSH连接其他机器，不需要输入密码

　　2. 修改文件hadoop-2.8.5/etc/hadoop/etc/hadoop/slaves，加入需要启动的datanode

　　　　默认有个本机。如果不需要再本机启动datanode就把localhost删掉

　　3.执行sbin目录下的集群启动脚本/停止脚本：start-dfs.sh/stop-dfs.sh

　　虽然集群起来了，但是还有个Starting secondary namenodes 启动在本机上，这个时候我最好去将secondary namenodes配置到另外的机器上面去，修改之前的/etc/hadoop/hdfs-site.xml，加入secondary namenodes的配置：

　　dfs.namenode.secondary.http-address

　　nijunyang69:50090

推荐阅读

io
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
io
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
bash
Amoeba 优化 MySQL 读写分离性能

Amoeba 通过优化 MySQL 的读写分离功能显著提升了数据库性能。作为一款基于 MySQL 协议的代理工具，Amoeba 能够高效地处理应用程序的请求，并根据预设的规则将 SQL 请求智能地分配到不同的数据库实例，从而实现负载均衡和高可用性。该方案不仅提高了系统的并发处理能力，还有效减少了主数据库的负担，确保了数据的一致性和可靠性。 ... [详细]

蜡笔小新 2024-11-08 19:19:47
input
在 CentOS 6.5 系统上部署 VNC 服务器的详细步骤与配置指南

在 CentOS 6.5 系统上部署 VNC 服务器时，首先需要确认 VNC 服务是否已安装。通常情况下，VNC 服务默认未安装。可以通过运行特定的查询命令来检查其安装状态。如果查询结果为空，则表明 VNC 服务尚未安装，需进行手动安装。此外，建议在安装前确保系统的软件包管理器已更新至最新版本，以避免兼容性问题。 ... [详细]

蜡笔小新 2024-11-07 11:12:58
string
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
export
JavaWeb项目架构中的NFS文件服务器实现与优化

在JavaWeb项目架构中，NFS（网络文件系统）的实现与优化是关键环节。NFS允许不同主机系统通过局域网共享文件和目录，提高资源利用率和数据访问效率。本文详细探讨了NFS在JavaWeb项目中的应用，包括配置、性能优化及常见问题的解决方案，旨在为开发者提供实用的技术参考。 ... [详细]

蜡笔小新 2024-11-06 15:58:12
string
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
string
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
io
Linux 环境下 Java 及相关软件的安装指南

本文详细介绍了如何在 Linux 系统上安装 JDK 1.8、MySQL 和 Redis，并提供了相应的环境配置和验证步骤。 ... [详细]

蜡笔小新 2024-11-13 18:10:16
char
深入解析HTML5字符集属性：charset与defaultCharset

本文将详细介绍HTML5中新增的字符集属性charset和defaultCharset，帮助开发者更好地理解和应用这些属性，以确保网页在不同环境下的正确显示。 ... [详细]

蜡笔小新 2024-11-13 11:09:46
post
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
post
如何在 Vim 编辑器中调整和自定义配色方案

Vim 编辑器功能强大，但其默认的配色方案往往不尽如人意，尤其是注释颜色为蓝色时，对眼睛极为不友好。为了提升编程体验，自定义配色方案显得尤为重要。通过合理调整颜色，不仅可以减轻视觉疲劳，还能显著提高编码效率和兴趣。 ... [详细]

蜡笔小新 2024-11-11 12:34:19
shell
服务器部署中的安全策略实践与优化

服务器部署中的安全策略实践与优化 ... [详细]

蜡笔小新 2024-11-10 13:04:30
string
在CentOS系统下详细解析阿里云ECS服务器上搭建LAMP环境的配置步骤

本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先，通过PuTTY工具实现远程连接至服务器。接着，检查当前系统的磁盘空间使用情况，确保有足够的空间进行后续操作，可使用 `df` 命令进行查看。此外，文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤，以及常见问题的解决方法，帮助用户顺利完成LAMP环境的搭建。 ... [详细]

蜡笔小新 2024-11-09 15:09:47
io
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47

deavilacampuzano

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章