热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop应用,hadoop的核心技术有哪些

2)2001年年底Lucene成为Apache基金会的一个子项目。4)高容错性:能够自动将失败的任务重新分配。Hadoop3.x在组成上没有变化。HDFS架构概述Hado


这里什么是目录标头Hadoop? Hadoop发展历史Hadoop优势(高4 ) Hadoop配置HDFS体系结构简介YARN体系结构简介MapReduce体系结构简介大数据技术生态系统


什么是Hadoop


1 ) Hadoop是由Apachefoundation开发的分布式系统基础架构。


2 )主要解决海量数据的存储和海量数据的分析计算问题。


3 )广义上,Hadoop通常是指更广泛的概念——Hadoop生态圈


Hadoopdevelopmenthistory1) Hadoop创始人Doug Cutting基于Lucene框架优化的升级、查询引擎和缩进,以实现与谷歌类似的全文搜索功能


2 ) 2001年底Lucene成为Apache基金会的子项目。


3 )对于海量数据场景,Lucene框架面临与谷歌同样的困难,难以存储海量数据,检索海量数据的速度很慢。


4 )谷歌学习和模仿如何解决这些问题:微版Nutch。


5 )谷歌可以说是Hadoop思想的来源((3篇关于谷歌大数据的论文) )。


GFS---- hdf smap---- reduce---Mr bigtable---- hbasehadoop优势(4高)1)高可靠性: Hadoop的基础是保留多个数据拷贝


如果原材料或存储出现故障,数据不会丢失。


2 )高可扩展性)在群集之间分配任务数据,方便地扩展数千个节点。


3 )效率)在MapReduce的思想下,Hadoop并行工作以加速任务


物理速度。


4 )容错能力强)可以自动重新分配失败的任务。


Hadoop构成于Hadoop1.x时代,Hadoop的MapReduce同时处理业务逻辑运算和资源调度,结合性很大。


在Hadoop2.x的时代,Yarn增加了。 Yarn只负责调度资源,MapReduce只负责运算。


Hadoop3.x的组成没有变化。


HDFS体系结构概述Hadoop分布式文件系统,简称HDFS是分布式文件系统。


1 )保存文件元数据,如名称(namenode(nn ) )文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、每个文件的块列表和块所在的DataNode。


2 ) datanode(dn ) :将文件的块数据和块数据校验和保存到本地文件系统。


3 )辅助名称(2nn )—每隔一段时间备份一次namenode元数据。


YARN体系结构概述Yet Another Resource Negotiator简称YARN,另一个资源协调员是Hadoop的资源管理器。


1 )资源管理器(RM ) :整个集群资源(内存、CPU等)的老板


3 )应用程序主程序(am ) :执行单个任务的老板


2 )节点管理器(nm )单节点服务器资源的老板


4 ) Container )容器,一个相当独立的服务器,封装在里面


执行任务所需的资源,如内存、CPU、磁盘和网络。


MapReduce体系结构概述MapReduce将计算过程分为两个阶段: Map和Reduce


1 ) Map阶段并行处理输入数据


2 )在Reduce阶段总结映射结果


大数据技术生态系统


1 ) sqoop ) sqoop是一种开源工具,主要用于在Hadoop、Hive和传统数据库(MySQL )之间交换数据,例如关系数据库(MySQL、Oracle


2 ) Flume ) Flume是一个高可用性、可靠、分布式的大容量日志收集、聚合和传输系统。 Flume支持自定义日志系统中的数据源以收集数据。


3 ) kafka ) kafka是高通量的分布式发布订阅消息系统


4 ) Spark:Spark是目前最流行的开源大数据内存计算框架。 可以根据存储在Hadoop中的大数据进行计算。


5 ) Flink:Flink是目前最流行的开源大数据内存计算框架。 用于实时计算的场景很多。


6 ) Oozie:Oozie是管理Hadoop作业(job )的工作流日程管理系统。


7 ) Hbase:HBase是一个分布式的、面向列的开源数据库。 HBase与常见的关系数据库不同,它是一个适用于非结构化数据存储的数据库。


8 ) Hive:Hive是一个基于Hadoop的数据仓库工具,它提供了将结构化数据文件映射到数据库表并将SQL语句转换为MapReduce任务并执行的简单SQL查询功能。 优点是学习费用低,可以在类SQL语句中快速实现简单的MapReduce统计信息,无需开发专用的MapReduce APP应用程序,完全适用于数据仓库的统计分析。


9 ) ZooKeeper )是面向大型分布式系统的可靠协调系统,提供配置维护、命名服务、分布式同步和组服务等功能。


推荐阅读
author-avatar
娜一刻冻杰幸福
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有