热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr

一、 集群间数据拷贝


  1. scp实现两个远程主机之间的文件复制

    scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push
    scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt // 拉 pull
    scp -r root@hadoop103:/user/atguigu/hello.txt root@hadoop104:/user/atguigu //是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间ssh没有配置的情况下可以使用该方式。

2.采用distcp命令实现两个Hadoop集群之间的递归数据复制

[atguigu@hadoop102 hadoop-2.7.2]$ bin/hadoop distcp hdfs://haoop102:9000/user/atguigu/hello.txt hdfs://hadoop103:9000/user/atguigu/hello.txt

二、小文件存档


2.1、HDFS存储小文件弊端

每个文件均按块存储u,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件非常低效,因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块大小无关。

2.2、 解决方法之一

HDFS存档文件(har结尾的文件),是一个高效的文件存档工具,它将文件存入HDFS块,在减少NameNode对内存使用的同时,允许对为了将进行透明的访问。具体来说:HDFS存档文件对内还是一个一个独立的文件,对NameNode而言是一个整体,减少了NameNode的内存。

  1. 启动yarn进程

  2. 进行归档

    $ hadoop archive -archiveName zqq.har -p /user/zqq/ /user/zqq/output/

在这里插入图片描述

  1. 查看归档

    [hadoop100@hadoop102 hadoop-2.7.2]$ hdfs dfs -lsr /user/zqq/output/zqq.har
    lsr: DEPRECATED: Please use 'ls -R' instead.
    -rw-r--r-- 3 hadoop100 supergroup 0 2021-01-19 13:54 /user/zqq/output/zqq.har/_SUCCESS
    -rw-r--r-- 5 hadoop100 supergroup 376 2021-01-19 13:54 /user/zqq/output/zqq.har/_index
    -rw-r--r-- 5 hadoop100 supergroup 23 2021-01-19 13:54 /user/zqq/output/zqq.har/_masterindex
    -rw-r--r-- 3 hadoop100 supergroup 4797 2021-01-19 13:54 /user/zqq/output/zqq.har/part-0
    # 普通方式是查看不了的,要通过har协议
    [hadoop100@hadoop102 hadoop-2.7.2]$ hdfs dfs -ls -R har:///user/zqq/output/zqq.har
    -rw-r--r-- 3 hadoop100 supergroup 3699 2021-01-19 13:04 har:///user/zqq/output/zqq.har/edits.xml
    -rw-r--r-- 3 hadoop100 supergroup 1073 2021-01-19 13:04 har:///user/zqq/output/zqq.har/edits2.xml
    -rw-r--r-- 3 hadoop100 supergroup 8 2021-01-19 13:04 har:///user/zqq/output/zqq.har/hc.txt
    -rw-r--r-- 3 hadoop100 supergroup 17 2021-01-19 13:04 har:///user/zqq/output/zqq.har/zqq.txt

  2. 解归档文件

    $ hdfs dfs -cp har:///user/zqq/output/zqq.har/* /user/zqq/input

    在这里插入图片描述
    在这里插入图片描述


2.3、回收站


开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。


相关参数

1、默认值fs.trash.interval=0,0表示禁用回收站;其他值表示设置文件的存活时间。
2、默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。
3、要求fs.trash.checkpoint.interval<&#61;fs.trash.interval

  1. 启用回收站&#xff1a;修改core-site.xml&#xff0c;配置垃圾回收时间为1分钟。

  2. 修改访问垃圾回收站用户名:core-site.xml

    <property><name>hadoop.http.staticuser.username><value>hadoop100value>
    property>

  3. 删除一个文件&#xff0c;查看回收站

    [hadoop100&#64;hadoop103 hadoop]$ hdfs dfs -rm /user/zqq/zqq.txt
    21/01/19 18:24:38 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval &#61; 1 minutes, Emptier interval &#61; 0 minutes.
    Moved: &#39;hdfs://hadoop102:9000/user/zqq/zqq.txt&#39; to trash at: hdfs://hadoop102:9000/user/hadoop100/.Trash/Current

    在这里插入图片描述
    在这里插入图片描述

  4. 恢复回收站数据

    hadoop fs -mv /user/hadoop100/.Trash/Current/user/atguigu/input /user/hadoop100/input

  5. 清空回收站

    hadoop fs -expunge


三、快照管理


快照相当于对目录做一个备份。并不会立即复制所有文件&#xff0c;而是记录文件变化。


  1. 开启指定目录的快照功能

    hdfs dfsadmin -allowSnapshot 路径

  2. 禁用指定目录的快照功能&#xff0c;默认是禁用

    hdfs dfsadmin -disallowSnapshot 路径

  3. 对目录创建快照

    hdfs dfs -createSnapshot 路径

  4. 指定名称创建快照

    hdfs dfs -createSnapshot 路径 名称

  5. 重命名快照

    hdfs dfs -renameSnapshot 路径 旧名称 新名称

  6. 列出当前用户所有可快照目录

    hdfs lsSnapshottableDir

  7. 比较两个快照目录的不同之处

    hdfs snapshotDiff 路径1 路径2

  8. 删除快照

    hdfs dfs -deleteSnapshot <path> <snapshotName>


推荐阅读
  • 本文详细介绍了如何在Linux系统上安装和配置Smokeping,以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装,确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]
  • Hadoop入门与核心组件详解
    本文详细介绍了Hadoop的基础知识及其核心组件,包括HDFS、MapReduce和YARN。通过本文,读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]
  • 本文详细介绍了中央电视台电影频道的节目预告,并通过专业工具分析了其加载方式,确保用户能够获取最准确的电视节目信息。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 本文探讨了在Windows Server 2008环境下配置Tomcat使用80端口时遇到的问题,包括端口被占用、多项目访问失败等,并提供详细的解决方法和配置建议。 ... [详细]
  • 本文详细介绍了 Flink 和 YARN 的交互机制。YARN 是 Hadoop 生态系统中的资源管理组件,类似于 Spark on YARN 的配置方式。我们将基于官方文档,深入探讨如何在 YARN 上部署和运行 Flink 任务。 ... [详细]
  • Hadoop发行版本选择指南:技术解析与应用实践
    本文详细介绍了Hadoop的不同发行版本及其特点,帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]
  • 本题来自WC2014,题目编号为BZOJ3435、洛谷P3920和UOJ55。该问题描述了一棵不断生长的带权树及其节点上小精灵之间的友谊关系,要求实时计算每次新增节点后树上所有可能的朋友对数。 ... [详细]
  • 全面解析运维监控:白盒与黑盒监控及四大黄金指标
    本文深入探讨了白盒和黑盒监控的概念,以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法,结合四个黄金指标的解读,帮助读者更好地理解和实施有效的监控策略。 ... [详细]
  • 简化报表生成:EasyReport工具的全面解析
    本文详细介绍了EasyReport,一个易于使用的开源Web报表工具。该工具支持Hadoop、HBase及多种关系型数据库,能够将SQL查询结果转换为HTML表格,并提供Excel导出、图表显示和表头冻结等功能。 ... [详细]
  • 本文详细介绍了如何使用Spring Boot进行高效开发,涵盖了配置、实例化容器以及核心注解的使用方法。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 在当前众多持久层框架中,MyBatis(前身为iBatis)凭借其轻量级、易用性和对SQL的直接支持,成为许多开发者的首选。本文将详细探讨MyBatis的核心概念、设计理念及其优势。 ... [详细]
  • 本文探讨了在Java中实现系统托盘最小化的两种方法:使用SWT库和JDK6自带的功能。通过这两种方式,开发者可以创建跨平台的应用程序,使窗口能够最小化到系统托盘,并提供丰富的交互功能。 ... [详细]
  • 本题探讨了在一个有向图中,如何根据特定规则将城市划分为若干个区域,使得每个区域内的城市之间能够相互到达,并且划分的区域数量最少。题目提供了时间限制和内存限制,要求在给定的城市和道路信息下,计算出最少需要划分的区域数量。 ... [详细]
author-avatar
潇潇洒洒牛仔_584
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有