热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop应用,hadoop的核心技术有哪些

2)2001年年底Lucene成为Apache基金会的一个子项目。4)高容错性:能够自动将失败的任务重新分配。Hadoop3.x在组成上没有变化。HDFS架构概述Hado


这里什么是目录标头Hadoop? Hadoop发展历史Hadoop优势(高4 ) Hadoop配置HDFS体系结构简介YARN体系结构简介MapReduce体系结构简介大数据技术生态系统


什么是Hadoop


1 ) Hadoop是由Apachefoundation开发的分布式系统基础架构。


2 )主要解决海量数据的存储和海量数据的分析计算问题。


3 )广义上,Hadoop通常是指更广泛的概念——Hadoop生态圈


Hadoopdevelopmenthistory1) Hadoop创始人Doug Cutting基于Lucene框架优化的升级、查询引擎和缩进,以实现与谷歌类似的全文搜索功能


2 ) 2001年底Lucene成为Apache基金会的子项目。


3 )对于海量数据场景,Lucene框架面临与谷歌同样的困难,难以存储海量数据,检索海量数据的速度很慢。


4 )谷歌学习和模仿如何解决这些问题:微版Nutch。


5 )谷歌可以说是Hadoop思想的来源((3篇关于谷歌大数据的论文) )。


GFS---- hdf smap---- reduce---Mr bigtable---- hbasehadoop优势(4高)1)高可靠性: Hadoop的基础是保留多个数据拷贝


如果原材料或存储出现故障,数据不会丢失。


2 )高可扩展性)在群集之间分配任务数据,方便地扩展数千个节点。


3 )效率)在MapReduce的思想下,Hadoop并行工作以加速任务


物理速度。


4 )容错能力强)可以自动重新分配失败的任务。


Hadoop构成于Hadoop1.x时代,Hadoop的MapReduce同时处理业务逻辑运算和资源调度,结合性很大。


在Hadoop2.x的时代,Yarn增加了。 Yarn只负责调度资源,MapReduce只负责运算。


Hadoop3.x的组成没有变化。


HDFS体系结构概述Hadoop分布式文件系统,简称HDFS是分布式文件系统。


1 )保存文件元数据,如名称(namenode(nn ) )文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、每个文件的块列表和块所在的DataNode。


2 ) datanode(dn ) :将文件的块数据和块数据校验和保存到本地文件系统。


3 )辅助名称(2nn )—每隔一段时间备份一次namenode元数据。


YARN体系结构概述Yet Another Resource Negotiator简称YARN,另一个资源协调员是Hadoop的资源管理器。


1 )资源管理器(RM ) :整个集群资源(内存、CPU等)的老板


3 )应用程序主程序(am ) :执行单个任务的老板


2 )节点管理器(nm )单节点服务器资源的老板


4 ) Container )容器,一个相当独立的服务器,封装在里面


执行任务所需的资源,如内存、CPU、磁盘和网络。


MapReduce体系结构概述MapReduce将计算过程分为两个阶段: Map和Reduce


1 ) Map阶段并行处理输入数据


2 )在Reduce阶段总结映射结果


大数据技术生态系统


1 ) sqoop ) sqoop是一种开源工具,主要用于在Hadoop、Hive和传统数据库(MySQL )之间交换数据,例如关系数据库(MySQL、Oracle


2 ) Flume ) Flume是一个高可用性、可靠、分布式的大容量日志收集、聚合和传输系统。 Flume支持自定义日志系统中的数据源以收集数据。


3 ) kafka ) kafka是高通量的分布式发布订阅消息系统


4 ) Spark:Spark是目前最流行的开源大数据内存计算框架。 可以根据存储在Hadoop中的大数据进行计算。


5 ) Flink:Flink是目前最流行的开源大数据内存计算框架。 用于实时计算的场景很多。


6 ) Oozie:Oozie是管理Hadoop作业(job )的工作流日程管理系统。


7 ) Hbase:HBase是一个分布式的、面向列的开源数据库。 HBase与常见的关系数据库不同,它是一个适用于非结构化数据存储的数据库。


8 ) Hive:Hive是一个基于Hadoop的数据仓库工具,它提供了将结构化数据文件映射到数据库表并将SQL语句转换为MapReduce任务并执行的简单SQL查询功能。 优点是学习费用低,可以在类SQL语句中快速实现简单的MapReduce统计信息,无需开发专用的MapReduce APP应用程序,完全适用于数据仓库的统计分析。


9 ) ZooKeeper )是面向大型分布式系统的可靠协调系统,提供配置维护、命名服务、分布式同步和组服务等功能。


推荐阅读
  • 初探Hadoop:第一章概览
    本文深入探讨了《Hadoop》第一章的内容,重点介绍了Hadoop的基本概念及其如何解决大数据处理中的关键挑战。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • 从理想主义者的内心深处萌发的技术信仰,推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 深入解析:存储技术的演变与发展
    本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程,详细解释了各种存储模型及其特点。 ... [详细]
  • 华为捐赠欧拉操作系统,承诺不推商用版
    华为近日宣布将欧拉开源操作系统捐赠给开放原子开源基金会,并承诺不会推出欧拉的商用发行版。此举旨在推动欧拉和鸿蒙操作系统的全场景融合与生态发展。 ... [详细]
  • Hadoop的文件操作位于包org.apache.hadoop.fs里面,能够进行新建、删除、修改等操作。比较重要的几个类:(1)Configurati ... [详细]
  • Hadoop平台警告解决:无法加载本机Hadoop库的全面应对方案
    本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先,通过修改日志配置文件来忽略该警告,这一方法被证明是有效的。其次,尝试指定本地库的路径,但未能解决问题。接着,尝试不使用Hadoop本地库,同样没有效果。然后,通过替换现有的Hadoop本地库,成功解决了问题。最后,根据Hadoop的源代码自行编译本地库,也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • 精选10款Python框架助力并行与分布式机器学习
    随着神经网络模型的不断深化和复杂化,训练这些模型变得愈发具有挑战性,不仅需要处理大量的权重,还必须克服内存限制等问题。本文将介绍10款优秀的Python框架,帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]
  • 本文介绍了Hadoop的核心组件,包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]
  • Java EE 平台集成了多种服务、API 和协议,旨在支持基于 Web 的多层应用程序开发。本文将详细介绍 Java EE 中的 13 种关键技术规范,帮助开发者更好地理解和应用这些技术。 ... [详细]
  • 本文详细介绍了 Spark 中的弹性分布式数据集(RDD)及其常见的操作方法,包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作,以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
author-avatar
娜一刻冻杰幸福
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有