1.1什么是Hadoop

作者：临冬将至 | 来源：互联网 | 2023-06-05 09:28

总目录：https:blog.csdn.netqq_41106844articledetails105553392Hadoop-子目录：https:b

总目录&＃xff1a;https://blog.csdn.net/qq_41106844/article/details/105553392

Hadoop - 子目录&＃xff1a;https://blog.csdn.net/qq_41106844/article/details/105553369

起源

起源.jpg

起源可以分为三步&＃xff0c;Google提出思想&＃xff0c;并实现了内部的大数据系统&＃xff0c;这让其他人知道这种解决方式是可行的&＃xff1b;之后NASA为了计算火箭的偏移和位置&＃xff0c;研发了OpenStack用于日常使用&＃xff1b;最后道格马丁和其他同伴在雅虎基于谷歌披露的论文开发了开源系统Hadoop。

本文链接&＃xff1a;https://www.jianshu.com/p/ef765c933808

Google

谷歌作为地球上最大的搜索引擎服务商&＃xff0c;每天都需要处理海量的数据&＃xff0c;但是为了存储和使用他们&＃xff0c;谷歌每天都要投入大量的人力物力&＃xff0c;产生大量成本。

这显然和谷歌的低成本之道不符合&＃xff0c;之后为了降低成本&＃xff0c;谷歌使用大量旧式服务器搭建集群用于处理这些数据&＃xff0c;由此谷歌三剑客之一的GFS诞生。

之后为了处理方便逻辑处理这些数据&＃xff0c;MapReduce诞生。

为了方便存储和管理他们&＃xff0c;BigTable诞生。

谷歌三剑客

GFS &＃61;&＃61;&＃61;> HDFS

MapReduce &＃61;&＃61;&＃61;> MapReduce

BigTable &＃61;&＃61;&＃61;> HBASE

Yahoo

作者&＃xff1a;Doug cutting&＃xff08;道格·卡丁&＃xff09;&＃xff0c;就职于Yahoo期间开发了Hadoop。

起源&＃xff1a;2003-2004年&＃xff0c;Google公布了部分GFS和MapReduce思想的细节。以此为基础&＃xff0c;道格等人用来两年业余时间&＃xff0c;开发了DFS和MapReduce机制&＃xff0c;构建了一个搜索引擎&＃xff1a;Nutch。

前身&＃xff1a;2005年秋天&＃xff0c;Hadoop作为Lucene&＃xff08;全文检索引擎&＃xff09;的子项目Nutch的一部分引入Apache基金会&＃xff08;专门为支持开源软件项目而办的一个非盈利性组织&＃xff09;。

正式成立&＃xff1a;2006年3月&＃xff0c;map-reduce和NDFS分别被纳入HADOOP项目。

简介

官网&＃xff1a;http://hadoop.apache.org

镜像网站&＃xff1a;https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/

核心模块&＃xff1a;

Hadoop Common                             HADOOP 工具类

Hadoop Distributed File System    分布式文件系统

Hadoop YARN                                分布式资源管理&＃xff08;资源调度&＃xff09;

Hadoop MapReduce                        分布式计算

架构

Hadoop分为Hadoop1.x&＃xff0c;Hadoop2.x和Hadoop3.x三个版本&＃xff0c;其中Hadoop1.x只有HDFS、MapReduce&＃xff0c;Hadoop2.x和Hadoop3.x有HDFS、MapReduce和Yarn。

Hadoop1.x

由HDFS和MapReduce组成。

缺陷&＃xff1a;

任务机制是job-task任务机制&＃xff0c;没有负载均衡。

只有一个NN&＃xff0c;一旦受压崩溃&＃xff0c;集群瘫痪。

Hadoop2.x

由HDFS、MapReduce和Yarn组成。

缺陷&＃xff1a;

即便有Yarn协调作业&＃xff0c;有HA来避免主节点宕机&＃xff0c;但是主节点的作业能力依旧限制着集群的发展。

Hadoop是一个提供了基本架构的框架&＃xff0c;人们可以按照自己的需求在Hadoop上构建自己的集群。

推荐阅读

apache
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
php
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
python
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
spring
一次上线事故，30岁+的程序员踩坑经验之谈

本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间，作为一个在线医疗项目，他们进行了优惠折扣活动的升级改造。然而，在上线前的最后一天，由于大量数据请求，导致部分接口出现问题。作者通过部署两台opentsdb来解决问题，但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]

蜡笔小新 2023-12-10 17:25:31
tree
ZooKeeper 学习

前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗？如果别人面试官让你给他讲讲ZooKeeper是个什么东西， ... [详细]

蜡笔小新 2023-10-17 17:07:40
tree
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09
jar
mapreduce源码分析总结

这篇文章总结的非常到位,故而转之一MapReduce概述MapReduce是一个用于大规模数据处理的分布式计算模型，它最初是由Google工程师设计并实现的ÿ ... [详细]

蜡笔小新 2023-10-17 12:36:35
php
【转】腾讯分析系统架构解析

TA（TencentAnalytics，腾讯分析）是一款面向第三方站长的免费网站分析系统，在数据稳定性、及时性方面广受站长好评，其秒级的实时数据更新频率也获得业界的认可。本文将从实 ... [详细]

蜡笔小新 2023-10-16 19:05:20
php
hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍

我们在之前的文章中已经初步介绍了Cloudera。hadoop基础----hadoop实战(零)-----hadoop的平台版本选择从版本选择这篇文章中我们了解到除了hadoop官方版本外很多 ... [详细]

蜡笔小新 2023-10-16 14:21:13
php
Java开发实战讲解！字节跳动三场技术面+HR面

二、回顾整理阿里面试题基本就这样了，还有一些零星的问题想不起来了，答案也整理出来了。自我介绍JVM如何加载一个类的过程，双亲委派模型中有 ... [详细]

蜡笔小新 2023-10-15 19:48:25
install
Hadoop框架之HDFS的shell操作

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的she ... [详细]

蜡笔小新 2023-10-15 16:12:13
jar
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
rsa
iServer集成Hadoop YARN集群，详细操作指南解析分布式分析

HadoopYARN集群是一个通用的资源管理平台，可为各类计算框架提供资源的管理和调度。其核心是通过一个全局的资源管理器来实现分离资源管理与作业调度监控。Hadoop ... [详细]

蜡笔小新 2023-10-14 16:24:53
tree
HBase干货 | 如何优雅的通过Key与Value分离降低写放大难题？

本文将为大家介绍为什么这样能够有效的降低写放大，然后聊聊几个keyvalue分离系统的结构，包括两篇影响比较广泛的学术论文，以及HBase在keyvalue ... [详细]

蜡笔小新 2023-10-14 15:12:27
python
一句话解决高并发的核心原则

本文介绍了解决高并发的核心原则，即将用户访问请求尽量往前推，避免访问CDN、静态服务器、动态服务器、数据库和存储，从而实现高性能、高并发、高可扩展的网站架构。同时提到了Google的成功案例，以及适用于千万级别PV站和亿级PV网站的架构层次。 ... [详细]

蜡笔小新 2023-12-12 10:56:24

临冬将至

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章