热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop03集群搭建常见问题集群安装的五种模式

一:搭建hadoop常见问题查看集群启动日志存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs,比如我的在:home

一:搭建hadoop常见问题


查看集群启动日志

存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs
,比如我的在:/home/hadoop/apps/hadoop-2.7.6/logs

日志文件名字含义:
hadoop(进程归属)-hadoop(用户名)-datanode(进程名)-hadoop01(节点).log

start-dfs.sh获取start-yarn.sh启动的时候某一个进程启动不了?


解决办法一:

先检查日志文件有没有报错 日志文件报错,排除错误 重新启动 。


解决办法二:

如果日志文件没有报错,查看是否配置好了免密登录。


解决办法三:

先把集群全部停了,再重启。分别执行:stop-dfs.sh,start-dfs.sh


解决办法四:

检查hdfs的相关进程看看哪个没有启动,再单独启动。

单独启动的命令:hadoop-daemon.sh start hdfs的进程hadoop-daemon.sh start namenodehadoop-daemon.sh start datanodehadoop-daemon.sh start secondarynamenode哪个节点上缺 在哪一个节点上执行yarn的相关命令,单独启动的命令:yarn-daemon.sh start yarn的相关命令yarn-daemon.sh start resourcemanageryarn-daemon.sh start nodemanager

格式化的问题

hdfs的格式化在做什么事情:创建namenode的数据存储目录,生成最初的元数据。在这个元数据中有一个重要的信息:VERSION—-记录的是集群当前的版本号, 每次格式化一次都会生成一个全新的。

成功的格式化只能进行一次 。如果不成功,则需要找到原因,直到成功。如果成功格式化之后启动了集群后又进行格式化,namenode的集群id信息会发生改变,datanode记录的集群id还是原来的,这时候就会造成datanode、namenode启动不了。


时间同步问题


机器不能联网:

手动进行同步:date -s “”


能联网的时候:可以用外部的时间服务器或者自己搭建时间服务器来同步时间

ntpdate “时间同步器的网址”


目的:是为了和北京时间保持一致吗?不是

是为了集群中各个节点之间的时间保持一致 。


环境变量的配置有问题:

/etc/profile------系统环境变量~/.bashrc-------用户环境变量----针对当前用户的~/.bash_profile-----用户环境变量----针对当前用户的加载顺序:系统的环境变量》》》》~/.bash_profile》》》~/.bashrc生效顺序:最后加载的最终生效

二:集群安装中的5种模式


单机模式

解压就可以。不存在分布式文件系统,所有文件存取都是本地模式,数据来源于本地存储。
生产上基本不用,只在本地测试时使用。


伪分布式

安装在一个节点上,是存在分布式文件系统的,只是所有的进程运行在一台机器上。同样存在主从结构,也是分布式。
生产中不会用,个人学习的时候会用。


完全分布式

存在主从结构,运行在多个节点上。存在一个主节点,多个从节点。是一种多从的结构。
在生产中用得少,在集群的节点数比较少的时候才用。
缺陷:一个主节点,一个冷备份节点

主节点的压力比较大,如果有一天namenode宕机了,集群就不能正常访问,集群处于瘫痪状态。会存在主节点的单点故障。


高可用:

多个主节点,多个从节点。目前使用最广泛的集群模式。

多个主节点中同一时间只有一个主节点对外提供服务,我们称之为active namenode,其他主节点处于热备份状态 standby namenode,时刻监控active主节点的状态,当active namenode宕机的时候 standny namenode立即进行切换,切换为active namenode,standby namenode必须实时和active namenode的元数据保持一致。

这种集群模式依赖于zookeeper,虽然有多个主节点,但是同一时间只有一个是active的,集群中真正服务的主节点仍然是一台机器的能力。举个例子,如果我的集群非常大,10000台从节点机器,每台datanode的存储数据的元数据信息都需要存储在namenode中,namenode的压力会很大,namenode存储的东西过多,进行数据访问的时候效率过低。

我们需要帮namenode分担压力,同一时间是否可以有多个主节点对外提供服务?


联邦模式

适用于超大集群。

同一时间会有多个namenode共同服务,多个namenode之间相互协作的时候依赖于块池id,来区分哪个数据归属哪一个namenode管理。多个namenode共同管理集群中的所有datanod,分工明确的 。 每个namenode只负责管理datanode上自己块池的数据

块池:联邦模式中标志数据块的管理权限的。格式例如:blockpoolID=BP-54673466-192.168.40.201-1531445892504。这个指的是当前的namenode所管理的块池的名字


hadoop四个模块


common


hdfs


mapreduce


yarn


推荐阅读
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 【原创】七、Hadoop 2.5.2+zookeeper高可用部署
    一、原理(四大要点)(1)保证元数据一致(edits)namenode(fsimage edits)a、NFSb、journalnodec、zk(2)只有一台namenode对外提 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 服务器部署中的安全策略实践与优化
    服务器部署中的安全策略实践与优化 ... [详细]
  • 本文介绍了如何利用Shell脚本高效地部署MHA(MySQL High Availability)高可用集群。通过详细的脚本编写和配置示例,展示了自动化部署过程中的关键步骤和注意事项。该方法不仅简化了集群的部署流程,还提高了系统的稳定性和可用性。 ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
author-avatar
月逝彼山
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有