热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop03集群搭建常见问题集群安装的五种模式

一:搭建hadoop常见问题查看集群启动日志存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs,比如我的在:home

一:搭建hadoop常见问题


查看集群启动日志

存放集群的日志信息位置在hadoop-2.7.6安装目录下的logs
,比如我的在:/home/hadoop/apps/hadoop-2.7.6/logs

日志文件名字含义:
hadoop(进程归属)-hadoop(用户名)-datanode(进程名)-hadoop01(节点).log

start-dfs.sh获取start-yarn.sh启动的时候某一个进程启动不了?


解决办法一:

先检查日志文件有没有报错 日志文件报错,排除错误 重新启动 。


解决办法二:

如果日志文件没有报错,查看是否配置好了免密登录。


解决办法三:

先把集群全部停了,再重启。分别执行:stop-dfs.sh,start-dfs.sh


解决办法四:

检查hdfs的相关进程看看哪个没有启动,再单独启动。

单独启动的命令:hadoop-daemon.sh start hdfs的进程hadoop-daemon.sh start namenodehadoop-daemon.sh start datanodehadoop-daemon.sh start secondarynamenode哪个节点上缺 在哪一个节点上执行yarn的相关命令,单独启动的命令:yarn-daemon.sh start yarn的相关命令yarn-daemon.sh start resourcemanageryarn-daemon.sh start nodemanager

格式化的问题

hdfs的格式化在做什么事情:创建namenode的数据存储目录,生成最初的元数据。在这个元数据中有一个重要的信息:VERSION—-记录的是集群当前的版本号, 每次格式化一次都会生成一个全新的。

成功的格式化只能进行一次 。如果不成功,则需要找到原因,直到成功。如果成功格式化之后启动了集群后又进行格式化,namenode的集群id信息会发生改变,datanode记录的集群id还是原来的,这时候就会造成datanode、namenode启动不了。


时间同步问题


机器不能联网:

手动进行同步:date -s “”


能联网的时候:可以用外部的时间服务器或者自己搭建时间服务器来同步时间

ntpdate “时间同步器的网址”


目的:是为了和北京时间保持一致吗?不是

是为了集群中各个节点之间的时间保持一致 。


环境变量的配置有问题:

/etc/profile------系统环境变量~/.bashrc-------用户环境变量----针对当前用户的~/.bash_profile-----用户环境变量----针对当前用户的加载顺序:系统的环境变量》》》》~/.bash_profile》》》~/.bashrc生效顺序:最后加载的最终生效

二:集群安装中的5种模式


单机模式

解压就可以。不存在分布式文件系统,所有文件存取都是本地模式,数据来源于本地存储。
生产上基本不用,只在本地测试时使用。


伪分布式

安装在一个节点上,是存在分布式文件系统的,只是所有的进程运行在一台机器上。同样存在主从结构,也是分布式。
生产中不会用,个人学习的时候会用。


完全分布式

存在主从结构,运行在多个节点上。存在一个主节点,多个从节点。是一种多从的结构。
在生产中用得少,在集群的节点数比较少的时候才用。
缺陷:一个主节点,一个冷备份节点

主节点的压力比较大,如果有一天namenode宕机了,集群就不能正常访问,集群处于瘫痪状态。会存在主节点的单点故障。


高可用:

多个主节点,多个从节点。目前使用最广泛的集群模式。

多个主节点中同一时间只有一个主节点对外提供服务,我们称之为active namenode,其他主节点处于热备份状态 standby namenode,时刻监控active主节点的状态,当active namenode宕机的时候 standny namenode立即进行切换,切换为active namenode,standby namenode必须实时和active namenode的元数据保持一致。

这种集群模式依赖于zookeeper,虽然有多个主节点,但是同一时间只有一个是active的,集群中真正服务的主节点仍然是一台机器的能力。举个例子,如果我的集群非常大,10000台从节点机器,每台datanode的存储数据的元数据信息都需要存储在namenode中,namenode的压力会很大,namenode存储的东西过多,进行数据访问的时候效率过低。

我们需要帮namenode分担压力,同一时间是否可以有多个主节点对外提供服务?


联邦模式

适用于超大集群。

同一时间会有多个namenode共同服务,多个namenode之间相互协作的时候依赖于块池id,来区分哪个数据归属哪一个namenode管理。多个namenode共同管理集群中的所有datanod,分工明确的 。 每个namenode只负责管理datanode上自己块池的数据

块池:联邦模式中标志数据块的管理权限的。格式例如:blockpoolID=BP-54673466-192.168.40.201-1531445892504。这个指的是当前的namenode所管理的块池的名字


hadoop四个模块


common


hdfs


mapreduce


yarn


推荐阅读
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • 大数据领域的职业路径与角色解析
    本文将深入探讨大数据领域的各种职业和工作角色,帮助读者全面了解大数据行业的需求、市场趋势,以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求,并解析各岗位的具体职责、所需技能和经验。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 构建高可用性Spark分布式集群:大数据环境下的最佳实践
    在构建高可用性的Spark分布式集群过程中,确保所有节点之间的无密码登录是至关重要的一步。通过在每个节点上生成SSH密钥对(使用 `ssh-keygen -t rsa` 命令并保持默认设置),可以实现这一目标。此外,还需将生成的公钥分发到所有节点的 `~/.ssh/authorized_keys` 文件中,以确保节点间的无缝通信。为了进一步提升集群的稳定性和性能,建议采用负载均衡和故障恢复机制,并定期进行系统监控和维护。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中,经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题,并提供了详细的解决方案,帮助读者避免常见的配置陷阱。通过这些经验分享,希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]
  • HBase在金融大数据迁移中的应用与挑战
    随着最后一台设备的下线,标志着超过10PB的HBase数据迁移项目顺利完成。目前,新的集群已在新机房稳定运行超过两个月,监控数据显示,新集群的查询响应时间显著降低,系统稳定性大幅提升。此外,数据消费的波动也变得更加平滑,整体性能得到了显著优化。 ... [详细]
  • 本文详细介绍了HDFS的基础知识及其数据读写机制。首先,文章阐述了HDFS的架构,包括其核心组件及其角色和功能。特别地,对NameNode进行了深入解析,指出其主要负责在内存中存储元数据、目录结构以及文件块的映射关系,并通过持久化方案确保数据的可靠性和高可用性。此外,还探讨了DataNode的角色及其在数据存储和读取过程中的关键作用。 ... [详细]
  • 分布式一致性算法:Paxos 的企业级实战
    一、简介首先我们这个平台是ES专题技术的分享平台,众所周知,ES是一个典型的分布式系统。在工作和学习中,我们可能都已经接触和学习过多种不同的分布式系统了,各 ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 本文详细介绍如何在华为鲲鹏平台上构建和使用适配ARM架构的Redis Docker镜像,解决常见错误并提供优化建议。 ... [详细]
  • 技术日志:深入探讨Spark Streaming与Spark SQL的融合应用
    技术日志:深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
author-avatar
月逝彼山
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有