当前位置: 开发笔记 > 后端 > 正文

HDFS基础知识

作者：lovelyCici9_569 | 来源：互联网 | 2023-08-11 08:57

1.HDFS介绍HDFS是HadoopDistributeFileSystem的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一&#

1. HDFS介绍 
HDFS是Hadoop Distribute File System 的简称&＃xff0c;意为&＃xff1a;Hadoop分布式文件系统。是Hadoop核心组件之一&＃xff0c;作为最底层的分布式存储服务而存在。
分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。
 
2. HDFS设计目标 
硬件故障是常态&＃xff0c; HDFS将有成百上千的服务器组成&＃xff0c;每一个组成部分都有可能出现故障。因此故障的检测和自动快速恢复是HDFS的核心架构目标。
HDFS上的应用与一般的应用不同&＃xff0c;它们主要是以流式读取数据。HDFS被设计成适合批量处理&＃xff0c;而不是用户交互式的。相较于数据访问的反应时间&＃xff0c;更注重数据访问的高吞吐量。
典型的HDFS文件大小是GB到TB的级别。所以&＃xff0c;HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽&＃xff0c;一个集群中支持数百个节点&＃xff0c;一个集群中还应该支持千万级别的文件。
大部分HDFS应用对文件要求的是write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需要修改了。这一假设简化了数据一致性问题&＃xff0c;使高吞吐量的数据访问成为可能。
移动计算的代价比之移动数据的代价低。一个应用请求的计算&＃xff0c;离它操作的数据越近就越高效&＃xff0c;这在数据达到海量级别的时候更是如此。将计算移动到数据附近&＃xff0c;比之将数据移动到应用所在显然更好。
在异构的硬件和软件平台上的可移植性。这将推动需要大数据集的应用更广泛地采用HDFS作为平台。

推荐阅读

http
深入解析：主流开源分布式文件系统综述

本文详细探讨了几款主流的开源分布式文件系统，包括HDFS、MooseFS、Lustre、GlusterFS和CephFS，重点分析了它们的元数据管理和数据一致性机制，旨在为读者提供深入的技术见解。 ... [详细]

蜡笔小新 2024-12-08 19:30:59
http
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
分布式
从码农到创业者：我的职业转型之路

在观察了众多同行的职业发展后，我决定分享自己的故事。本文探讨了为什么大多数程序员难以成为架构师，并阐述了我从一家外企离职后投身创业的心路历程。 ... [详细]

蜡笔小新 2024-12-21 15:55:02
分布式
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
python
深入解析BookKeeper的设计与应用场景

本文介绍了由Yahoo在2009年开发并于2011年开源的BookKeeper技术。BookKeeper是一种高效且可靠的日志流存储解决方案，广泛应用于需要高性能和强数据持久性的场景。 ... [详细]

蜡笔小新 2024-12-19 11:08:57
curl
构建Filebeat-Kafka-Logstash-ElasticSearch-Kibana日志收集体系

本文介绍了如何使用Filebeat、Kafka、Logstash、ElasticSearch和Kibana构建一个高效、可扩展的日志收集与分析系统。各组件分别承担不同的职责，确保日志数据能够被有效收集、处理、存储及可视化。 ... [详细]

蜡笔小新 2024-12-08 14:48:22
curl
HBase运维工具全解析

本文深入探讨了HBase常用的运维工具，详细介绍了每种工具的功能、使用场景及操作示例。对于HBase的开发人员和运维工程师来说，这些工具是日常管理和故障排查的重要手段。 ... [详细]

蜡笔小新 2024-12-24 17:00:59
分布式
Java时代的淘宝技术演进

本文探讨了2012年4月期间，淘宝在技术架构上的关键数据和发展历程。涵盖了从早期PHP到Java的转型，以及在分布式计算、存储和网络流量管理方面的创新。 ... [详细]

蜡笔小新 2024-12-24 12:12:13
ftp
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
分布式
深入解析Serverless架构模式

本文将详细介绍Serverless架构模式的核心概念、工作原理及其优势。通过对比传统架构，探讨Serverless如何简化应用开发与运维流程，并介绍当前主流的Serverless平台。 ... [详细]

蜡笔小新 2024-12-22 09:08:56
jvm
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
localhost
ZooKeeper集群构建与详解

本文详细介绍了使用ZooKeeper构建高可用集群的方法，包括必要的软件环境准备、配置文件调整及集群启动等关键步骤。通常，一个ZooKeeper集群由奇数个节点组成，以确保Leader选举的有效性。 ... [详细]

蜡笔小新 2024-12-16 11:16:22
jvm
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
分布式
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
分布式
构建Snowflake中的近实时数据摄取管道

探索如何在Snowflake中构建高效的近实时数据摄取管道，利用其内外表特性及Snowpipe服务，实现数据的快速、稳定加载。 ... [详细]

蜡笔小新 2024-12-09 17:40:26

lovelyCici9_569

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章