HDFS2.x新特性

作者：潇潇洒洒牛仔_584 | 来源：互联网 | 2023-12-13 13:52

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr

一、集群间数据拷贝

scp实现两个远程主机之间的文件复制
scp -r hello.txt root&＃64;hadoop103:/user/atguigu/hello.txt // 推 push scp -r root&＃64;hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull scp -r root&＃64;hadoop103:/user/atguigu/hello.txt root&＃64;hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制&＃xff1b;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2&＃xff0e;采用distcp命令实现两个Hadoop集群之间的递归数据复制

[atguigu&＃64;hadoop102 hadoop-2.7.2]$ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt

二、小文件存档

2.1、HDFS存储小文件弊端

每个文件均按块存储u&＃xff0c;每个块的元数据存储在NameNode的内存中&＃xff0c;因此HDFS存储小文件非常低效&＃xff0c;因为大量的小文件会耗尽NameNode中的大部分内存。但注意&＃xff0c;存储小文件所需要的磁盘容量和数据块大小无关。

2.2、解决方法之一

HDFS存档文件&＃xff08;har结尾的文件&＃xff09;&＃xff0c;是一个高效的文件存档工具&＃xff0c;它将文件存入HDFS块&＃xff0c;在减少NameNode对内存使用的同时&＃xff0c;允许对为了将进行透明的访问。具体来说&＃xff1a;HDFS存档文件对内还是一个一个独立的文件&＃xff0c;对NameNode而言是一个整体&＃xff0c;减少了NameNode的内存。

启动yarn进程
进行归档

$ hadoop archive -archiveName zqq.har -p /user/zqq/ /user/zqq/output/

在这里插入图片描述

查看归档

[hadoop100&＃64;hadoop102 hadoop-2.7.2]$ hdfs dfs -lsr /user/zqq/output/zqq.har lsr: DEPRECATED: Please use &＃39;ls -R&＃39; instead. -rw-r--r-- 3 hadoop100 supergroup 0 2021-01-19 13:54 /user/zqq/output/zqq.har/_SUCCESS -rw-r--r-- 5 hadoop100 supergroup 376 2021-01-19 13:54 /user/zqq/output/zqq.har/_index -rw-r--r-- 5 hadoop100 supergroup 23 2021-01-19 13:54 /user/zqq/output/zqq.har/_masterindex -rw-r--r-- 3 hadoop100 supergroup 4797 2021-01-19 13:54 /user/zqq/output/zqq.har/part-0 # 普通方式是查看不了的&＃xff0c;要通过har协议 [hadoop100&＃64;hadoop102 hadoop-2.7.2]$ hdfs dfs -ls -R har:///user/zqq/output/zqq.har -rw-r--r-- 3 hadoop100 supergroup 3699 2021-01-19 13:04 har:///user/zqq/output/zqq.har/edits.xml -rw-r--r-- 3 hadoop100 supergroup 1073 2021-01-19 13:04 har:///user/zqq/output/zqq.har/edits2.xml -rw-r--r-- 3 hadoop100 supergroup 8 2021-01-19 13:04 har:///user/zqq/output/zqq.har/hc.txt -rw-r--r-- 3 hadoop100 supergroup 17 2021-01-19 13:04 har:///user/zqq/output/zqq.har/zqq.txt
解归档文件

$ hdfs dfs -cp har:///user/zqq/output/zqq.har/* /user/zqq/input

2.3、回收站

开启回收站功能&＃xff0c;可以将删除的文件在不超时的情况下&＃xff0c;恢复原数据&＃xff0c;起到防止误删除、备份等作用。

三、快照管理

快照相当于对目录做一个备份。并不会立即复制所有文件&＃xff0c;而是记录文件变化。

开启指定目录的快照功能
hdfs dfsadmin -allowSnapshot 路径
禁用指定目录的快照功能&＃xff0c;默认是禁用
hdfs dfsadmin -disallowSnapshot 路径
对目录创建快照
hdfs dfs -createSnapshot 路径
指定名称创建快照
hdfs dfs -createSnapshot 路径名称
重命名快照
hdfs dfs -renameSnapshot 路径旧名称新名称
列出当前用户所有可快照目录
hdfs lsSnapshottableDir
比较两个快照目录的不同之处
hdfs snapshotDiff 路径1 路径2
删除快照
hdfs dfs -deleteSnapshot <path> <snapshotName>

推荐阅读

bash
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
java
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
java
中央电视台电影频道节目预告及优化分析

本文详细介绍了中央电视台电影频道的节目预告，并通过专业工具分析了其加载方式，确保用户能够获取最准确的电视节目信息。 ... [详细]

蜡笔小新 2024-12-25 21:01:14
bash
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
bash
Tomcat配置80端口时常见问题及解决方案

本文探讨了在Windows Server 2008环境下配置Tomcat使用80端口时遇到的问题，包括端口被占用、多项目访问失败等，并提供详细的解决方法和配置建议。 ... [详细]

蜡笔小新 2024-12-24 19:21:28
bash
Flink 与 YARN 的集成

本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件，类似于 Spark on YARN 的配置方式。我们将基于官方文档，深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]

蜡笔小新 2024-12-24 11:15:38
version
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
数组
紫荆花之恋：动态树上的小精灵友谊问题

本题来自WC2014，题目编号为BZOJ3435、洛谷P3920和UOJ55。该问题描述了一棵不断生长的带权树及其节点上小精灵之间的友谊关系，要求实时计算每次新增节点后树上所有可能的朋友对数。 ... [详细]

蜡笔小新 2024-12-22 14:36:54
export
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
export
简化报表生成：EasyReport工具的全面解析

本文详细介绍了EasyReport，一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库，能够将SQL查询结果转换为HTML表格，并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]

蜡笔小新 2024-12-22 11:11:28
java
Spring Boot快速入门与应用

本文详细介绍了如何使用Spring Boot进行高效开发，涵盖了配置、实例化容器以及核心注解的使用方法。 ... [详细]

蜡笔小新 2024-12-27 15:28:29
数组
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
java
MyBatis：深入解析与应用

在当前众多持久层框架中，MyBatis（前身为iBatis）凭借其轻量级、易用性和对SQL的直接支持，成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]

蜡笔小新 2024-12-27 12:17:16
import
Java 实现系统托盘最小化：SWT与JDK6的解决方案

本文探讨了在Java中实现系统托盘最小化的两种方法：使用SWT库和JDK6自带的功能。通过这两种方式，开发者可以创建跨平台的应用程序，使窗口能够最小化到系统托盘，并提供丰富的交互功能。 ... [详细]

蜡笔小新 2024-12-25 15:03:50
sum
最小路径覆盖与强连通分量的应用：国王的问题

本题探讨了在一个有向图中，如何根据特定规则将城市划分为若干个区域，使得每个区域内的城市之间能够相互到达，并且划分的区域数量最少。题目提供了时间限制和内存限制，要求在给定的城市和道路信息下，计算出最少需要划分的区域数量。 ... [详细]

蜡笔小新 2024-12-23 18:42:12