当前位置: 开发笔记 > 编程语言 > 正文

HDFS快照

作者：晓志1998_809 | 来源：互联网 | 2023-10-13 12:17

ApacheHadoop2.9.0

Apache Hadoop 2.9.0

请查看原文：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html

概述：

HDFS快照是HDFS文件系统某个时间点的只读副本。快照可以是整个文件系统的快照，也可以是一个文件系统的子目录（subtree）。数据备份、保护数据以防止用户错误以及灾难恢复等都需要用到快照。

HDFS快照实现是非常高效的：

l 快照是可以即时创建的：除去索引节点的查找时间代价是O(1).

l 只有在修改也被应用到快照上的时候才需要额外的存储：存储代价是O(M)，M是指修改的文件或者目录数目。

l 数据节点上的文本块是不会被拷贝的：快照文件只是记录文本块列表以及文件大小，并不真正拷贝数据。

l 快照并不影响常规的HDFS操作：修改可以按照修改相反的顺序记录下来，这样当前的数据可以直接被访问。当前的数据加上相应的修改才能得到快照数据。

Snapshottable（可快照）目录

可以为任意设置为snapshottable的目录创建快照。一个snapshottable目录可以同时存放65,536份快照，并且快照目录的数目没有限制。管理员可以指定任意目录为snapshottable，但是只要在一个snapshottable目录下有快照，这个目录就不能被删除或者重名字，只有当所有快照都被删除时才能删除这个snapshottable目录或者重命名这个目录。

快照路径

针对一个snapshottable目录，“.snapshot”路径用来指定存放的快照。例如：/foo是一个snapshottable目录，/foo/bar是一个 /foo下的一个文件/目录，并且/foo有一个快照s0，那么路径/foo/.snapshort/s0/bar 指向/foo/bar的快照。常用的API以及CLI可以查看“.snapshot”，下面是一些列子。

列出snapshottable目录下的所有快照：

hdfs dfs -ls foo/.snapshot

列出快照S0下的所有文件：

hdfs dfs -ls foo/.snapshot/s0

从快照S0中拷贝一个文件：

hdfs dfs -cp -ptopax /foo/.snapshot/s0/bar /tmp

备注：这些例子使用保护的操作保护时间戳、所有权、许可证、ACLs和XAttrs。

升级到一个包含快照特征的HDFS版本

HDFS快照特征使用.snapshot这个保留的目录名来保存快照，当一个旧的不支持快照的HDFS版本需要升级时，首先就要重命名或者删除当前目录中名字为.snapshot的目录来防止和保留名冲突。可以查看hadoop 用户指导中升级的部分来获得更多的信息。

快照操作

管理员操作

这部分讲述的操作需要超级用户的权限。

允许快照

指定一个目录可以创建快照，当这一操作成功，这个目录将会变成可以创建快照的目录。

命令：

hdfs dfsadmin -allowSnapshot

参数：

path

可以创建快照的目录

可以在HdfsAdmin中查看对应的JAVA API void allowSnapshot(Path path)

禁止快照

禁止一个目录创建快照，在禁止之前，当前目录下所有的快照必须已经被删除。

命令:

hdfs dfsadmin -disallowSnapshot

参数：

path

禁止创建快照的目录

可以在HdfsAdmin中查看对应的JAVA API void disallowSnapshot(Path path)

用户操作：

这部分描述用户操作，需要特别注意的是超级用户可以执行所有的操作，而不需要个体操作的权限。

创建快照：

创建一个快照，这个操作需要snapshottable 目录的owner权限

命令：

hdfs dfs -createSnapshot []

参数：

path	snapshottable 目录.
snapshotName	快照名字，, 这是一个可选项，当省略时，就会用时间戳 "'s'yyyyMMdd-HHmmss.SSS"格式来默认，例如："s20130412-151029.033"

可以查看对应的JAVA API 接口 Path createSnapshot(Path path)和Path createSnapshot(Path path, String snapshotName)

删除快照

从snapshottable 目录中删除一个快照，这个操作需要snapshottable 目录的owner权限。

命令：

hdfs dfs -deleteSnapshot

参数：

path	snapshottable 目录路径
snapshotName	快照名

在FileSystem中查看对应的JAVA API void deleteSnapshot(Path path, String snapshotName)

重命名快照

重命名快照，这个操作需要snmapshottable目录的owner权限

命令：

hdfs dfs -renameSnapshot

参数：

path	snapshottable 目录路径.
oldName	旧快照名字
newName	新快照名字

在FileSystem中查看对应的JAVA APIvoid renameSnapshot(Path path, String oldName, String newName)

查看Snapshottable目录列表

查看所有snampshottable目录列表，需要当前用户有快照的权限。

命令：

hdfs lsSnapshottableDir

参数：无

在FileSystem中查看对应的JAVA APISnapshottableDirectoryStatus[] getSnapshottableDirectoryListing() inDistributedFileSystem.

查看快照之间的差异报告

得到2份快照的差异，这个操作需要2份快照的目录文件的read access权限。

命令：

hdfs snapshotDiff

参数：

path	snapshottable 目录路径.
fromSnapshot	开始的快照名字.
toSnapshot	结束的快照名字.

snapshotDiff 就是2份快照的差异，也可以是一份快照和当前状态的差异，用户可以少用“.”来代表当前状态。

结果：

+	The file/directory 被创建了.
-	The file/directory 被删除了.
M	The file/directory 被修改了.
R	The file/directory 被重名了.

重命名代表的是在相同sampshottable目录下的文件/目录被重命名了。如果文件/目录重命名是发生在snapsottable目录之外，那么报告中会显示的一个文件/目录被删除了。一个文件/目录从snapsshottable目录之外被重命名，那么在报告中会显示是新创建的。

快照差异报告不敢担保和操作的顺序相同，例如，如果我们重命名目录”/foo”为’/foo2”,并且在”/foo2/bar”后面追加数据，那么差异报告将会是如下情况。

R. /foo -> /foo2

M. /foo/bar

可以看到，对一个重命名过的目录上文件/目录的修改使用的是重命名之前的名字（例如上述例子中的/foo/bar）

在DistributedFileSystem查看相应的JAVA APISnapshotDiffReport getSnapshotDiffReport(Path path, String fromSnapshot, String toSnapshot)

推荐阅读

text
优化使用Apache + Memcached-Session-Manager + Tomcat集群方案

本文探讨了使用Apache、Memcached-Session-Manager和Tomcat集群构建高性能Web应用过程中遇到的问题及解决方案。通过重新设计物理架构，解决了单虚拟机环境无法真实模拟分布式环境的问题，并详细记录了性能测试结果。 ... [详细]

蜡笔小新 2024-12-14 10:07:53
bash
解决Hive启动时权限被拒问题

本文详细分析了Hive在启动过程中遇到的权限拒绝错误，并提供了多种解决方案，包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]

蜡笔小新 2024-12-26 19:14:29
web
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
tree
深入解析 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类及其应用

本文详细介绍了 Java 中的 org.apache.hadoop.registry.client.impl.zk.ZKPathDumper 类，提供了丰富的代码示例和使用指南。通过这些示例，读者可以更好地理解如何在实际项目中利用 ZKPathDumper 类进行注册表树的转储操作。 ... [详细]

蜡笔小新 2024-12-23 14:15:06
text
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
text
使用正则表达式去除字符串中单词间的空格

本文探讨了如何在Hive（基于Hadoop）环境中编写类似SQL的语句，以去除字段中的空格。特别是在处理邮政编码等数据时，去除特定位置的空格是常见的需求。 ... [详细]

蜡笔小新 2024-12-20 19:08:43
text
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
text
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
text
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
text
HDFS与Hive中的数据存储和管理机制

本文探讨了Hive中内部表和外部表的区别及其在HDFS上的路径映射，详细解释了两者的创建、加载及删除操作，并提供了查看表详细信息的方法。通过对比这两种表类型，帮助读者理解如何更好地管理和保护数据。 ... [详细]

蜡笔小新 2024-12-27 20:21:48
object
Apache Jena 中 Txn.executeWrite 方法详解与代码示例

本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法，通过多个实际代码示例展示了其在不同场景下的应用，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-26 17:55:52
web
深入解析 Apache Shiro 安全框架架构

本文详细介绍了 Apache Shiro，一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作，使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API，同时确保高度的安全性和灵活性。 ... [详细]

蜡笔小新 2024-12-25 16:03:57
php
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
controller
深入理解 org.apache.hadoop.ha.HAServiceTarget 的 checkFencingConfigured 方法

本文详细探讨了 org.apache.hadoop.ha.HAServiceTarget 类中的 checkFencingConfigured 方法，包括其功能、应用场景及代码示例。通过实际代码片段，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-12-22 18:28:35
text
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51