作者:娜一刻冻杰幸福 | 来源:互联网 | 2023-07-26 09:42
2)2001年年底Lucene成为Apache基金会的一个子项目。4)高容错性:能够自动将失败的任务重新分配。Hadoop3.x在组成上没有变化。HDFS架构概述Hado
这里什么是目录标头Hadoop? Hadoop发展历史Hadoop优势(高4 ) Hadoop配置HDFS体系结构简介YARN体系结构简介MapReduce体系结构简介大数据技术生态系统
什么是Hadoop
1 ) Hadoop是由Apachefoundation开发的分布式系统基础架构。
2 )主要解决海量数据的存储和海量数据的分析计算问题。
3 )广义上,Hadoop通常是指更广泛的概念——Hadoop生态圈
Hadoopdevelopmenthistory1) Hadoop创始人Doug Cutting基于Lucene框架优化的升级、查询引擎和缩进,以实现与谷歌类似的全文搜索功能
2 ) 2001年底Lucene成为Apache基金会的子项目。
3 )对于海量数据场景,Lucene框架面临与谷歌同样的困难,难以存储海量数据,检索海量数据的速度很慢。
4 )谷歌学习和模仿如何解决这些问题:微版Nutch。
5 )谷歌可以说是Hadoop思想的来源((3篇关于谷歌大数据的论文) )。
GFS---- hdf smap---- reduce---Mr bigtable---- hbasehadoop优势(4高)1)高可靠性: Hadoop的基础是保留多个数据拷贝
如果原材料或存储出现故障,数据不会丢失。
2 )高可扩展性)在群集之间分配任务数据,方便地扩展数千个节点。
3 )效率)在MapReduce的思想下,Hadoop并行工作以加速任务
物理速度。
4 )容错能力强)可以自动重新分配失败的任务。
Hadoop构成于Hadoop1.x时代,Hadoop的MapReduce同时处理业务逻辑运算和资源调度,结合性很大。
在Hadoop2.x的时代,Yarn增加了。 Yarn只负责调度资源,MapReduce只负责运算。
Hadoop3.x的组成没有变化。
HDFS体系结构概述Hadoop分布式文件系统,简称HDFS是分布式文件系统。
1 )保存文件元数据,如名称(namenode(nn ) )文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、每个文件的块列表和块所在的DataNode。
2 ) datanode(dn ) :将文件的块数据和块数据校验和保存到本地文件系统。
3 )辅助名称(2nn )—每隔一段时间备份一次namenode元数据。
YARN体系结构概述Yet Another Resource Negotiator简称YARN,另一个资源协调员是Hadoop的资源管理器。
1 )资源管理器(RM ) :整个集群资源(内存、CPU等)的老板
3 )应用程序主程序(am ) :执行单个任务的老板
2 )节点管理器(nm )单节点服务器资源的老板
4 ) Container )容器,一个相当独立的服务器,封装在里面
执行任务所需的资源,如内存、CPU、磁盘和网络。
MapReduce体系结构概述MapReduce将计算过程分为两个阶段: Map和Reduce
1 ) Map阶段并行处理输入数据
2 )在Reduce阶段总结映射结果
大数据技术生态系统
1 ) sqoop ) sqoop是一种开源工具,主要用于在Hadoop、Hive和传统数据库(MySQL )之间交换数据,例如关系数据库(MySQL、Oracle
2 ) Flume ) Flume是一个高可用性、可靠、分布式的大容量日志收集、聚合和传输系统。 Flume支持自定义日志系统中的数据源以收集数据。
3 ) kafka ) kafka是高通量的分布式发布订阅消息系统
4 ) Spark:Spark是目前最流行的开源大数据内存计算框架。 可以根据存储在Hadoop中的大数据进行计算。
5 ) Flink:Flink是目前最流行的开源大数据内存计算框架。 用于实时计算的场景很多。
6 ) Oozie:Oozie是管理Hadoop作业(job )的工作流日程管理系统。
7 ) Hbase:HBase是一个分布式的、面向列的开源数据库。 HBase与常见的关系数据库不同,它是一个适用于非结构化数据存储的数据库。
8 ) Hive:Hive是一个基于Hadoop的数据仓库工具,它提供了将结构化数据文件映射到数据库表并将SQL语句转换为MapReduce任务并执行的简单SQL查询功能。 优点是学习费用低,可以在类SQL语句中快速实现简单的MapReduce统计信息,无需开发专用的MapReduce APP应用程序,完全适用于数据仓库的统计分析。
9 ) ZooKeeper )是面向大型分布式系统的可靠协调系统,提供配置维护、命名服务、分布式同步和组服务等功能。