Hadoop中NameNode与SecondaryNameNode的运行机制解析

作者：杰仔 | 来源：互联网 | 2024-11-04 11:41

在Hadoop架构中，NameNode中的元数据存储位置是一个关键问题。通常，元数据会存储在内存中以提高访问效率，因为频繁的磁盘随机访问会导致性能下降。此外，NameNode还会定期将元数据的快照保存到磁盘上，以确保数据的持久性和恢复能力。SecondaryNameNode则负责定期合并这些快照和编辑日志，进一步增强系统的稳定性和可靠性。

　　思考：nameNode中元数据的是存在哪里的呢？

　　有两个可能，一个是存在磁盘中，另一个可能是存在内存中。如果存在磁盘中的话，效率比较低，因为需要经常的随机访问还要给出对应的响应到客户。如果吃存到内存中，一旦断点元数据就会丢失，集群则无法正常的工作。因此我们可以把两者结合，在磁盘中备份元数据 FSImage.

　　新问题来了。如果内存中数据更新的时候同时在磁盘中备份数据，会导致效率降低，如果不更新就导致数据一致性。一旦NameNode断点会导致数据丢失。

　　HDFS有一个特性是修改比较慢的特征，此时产生一个新的文件 Edits文件，只追加信息。当元数据有变动的时候，修改内存中元数据并追加到Edits中。如果NameNode节点断电会合并FSImage和Edits文件，如果数据过大断电的时候合并依然由NameNode进行，就会浪费时间，所以会定期的对两个文件进行合并，且这个操作交由SecondaryNameNode来操作。

第一阶段：NameNode 启动
   （1）第一次启动 NameNode 格式化后，创建 Fsimage 和 Edits 文件。如果不是第一次启
       动，直接加载编辑日志和镜像文件到内存。
   （2）客户端对元数据进行增删改的请求。
   （3）NameNode 记录操作日志，更新滚动日志。
   （4）NameNode 在内存中对元数据进行增删改

第二阶段：Secondary NameNode 工作
   （1）Secondary NameNode 询问 NameNode 是否需要 CheckPoint。直接带回 NameNode
       是否检查结果。
   （2）Secondary NameNode 请求执行 CheckPoint。
   （3）NameNode 滚动正在写的 Edits 日志。
   （4）将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。
   （5）Secondary NameNode 加载编辑日志和镜像文件到内存，并合并。
   （6）生成新的镜像文件 fsimage.chkpoint。
   （7）拷贝 fsimage.chkpoint 到 NameNode。
   （8）NameNode 将 fsimage.chkpoint 重新命名成 fsimage

推荐阅读

format
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
schema
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
io
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
uri
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
io
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
post
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
format
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
io
Alluxio 1.5.0 版本发布：增强功能与优化

Alluxio 1.5.0 开源版本引入了多项新特性和改进，旨在提升数据访问速度和系统互操作性。 ... [详细]

蜡笔小新 2024-12-10 10:47:59
io
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
default
android知识杂记（三）

andr ... [详细]

蜡笔小新 2024-12-26 13:29:32
default
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
io
MySQL PMM：MyISAM 和 Aria 存储引擎的性能优化

本文探讨了 MyISAM 和 Aria 存储引擎在 MySQL 中的关键性能指标，包括密钥缓冲区效率、页面缓存读写性能以及事务日志同步策略。通过优化这些参数，可以显著提升数据库的整体性能。 ... [详细]

蜡笔小新 2024-12-23 15:04:32
object
深入解析Redis内存对象模型

本文详细介绍了Redis内存对象模型的关键知识点，包括内存统计、内存分配、数据存储细节及优化策略。通过实际案例和专业分析，帮助读者全面理解Redis内存管理机制。 ... [详细]

蜡笔小新 2024-12-23 14:50:23
object
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
config
构建Filebeat-Kafka-Logstash-ElasticSearch-Kibana日志收集体系

本文介绍了如何使用Filebeat、Kafka、Logstash、ElasticSearch和Kibana构建一个高效、可扩展的日志收集与分析系统。各组件分别承担不同的职责，确保日志数据能够被有效收集、处理、存储及可视化。 ... [详细]

蜡笔小新 2024-12-08 14:48:22

杰仔

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章