热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

hadoop应用,hadoop的核心技术有哪些

2)2001年年底Lucene成为Apache基金会的一个子项目。4)高容错性:能够自动将失败的任务重新分配。Hadoop3.x在组成上没有变化。HDFS架构概述Hado


这里什么是目录标头Hadoop? Hadoop发展历史Hadoop优势(高4 ) Hadoop配置HDFS体系结构简介YARN体系结构简介MapReduce体系结构简介大数据技术生态系统


什么是Hadoop


1 ) Hadoop是由Apachefoundation开发的分布式系统基础架构。


2 )主要解决海量数据的存储和海量数据的分析计算问题。


3 )广义上,Hadoop通常是指更广泛的概念——Hadoop生态圈


Hadoopdevelopmenthistory1) Hadoop创始人Doug Cutting基于Lucene框架优化的升级、查询引擎和缩进,以实现与谷歌类似的全文搜索功能


2 ) 2001年底Lucene成为Apache基金会的子项目。


3 )对于海量数据场景,Lucene框架面临与谷歌同样的困难,难以存储海量数据,检索海量数据的速度很慢。


4 )谷歌学习和模仿如何解决这些问题:微版Nutch。


5 )谷歌可以说是Hadoop思想的来源((3篇关于谷歌大数据的论文) )。


GFS---- hdf smap---- reduce---Mr bigtable---- hbasehadoop优势(4高)1)高可靠性: Hadoop的基础是保留多个数据拷贝


如果原材料或存储出现故障,数据不会丢失。


2 )高可扩展性)在群集之间分配任务数据,方便地扩展数千个节点。


3 )效率)在MapReduce的思想下,Hadoop并行工作以加速任务


物理速度。


4 )容错能力强)可以自动重新分配失败的任务。


Hadoop构成于Hadoop1.x时代,Hadoop的MapReduce同时处理业务逻辑运算和资源调度,结合性很大。


在Hadoop2.x的时代,Yarn增加了。 Yarn只负责调度资源,MapReduce只负责运算。


Hadoop3.x的组成没有变化。


HDFS体系结构概述Hadoop分布式文件系统,简称HDFS是分布式文件系统。


1 )保存文件元数据,如名称(namenode(nn ) )文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、每个文件的块列表和块所在的DataNode。


2 ) datanode(dn ) :将文件的块数据和块数据校验和保存到本地文件系统。


3 )辅助名称(2nn )—每隔一段时间备份一次namenode元数据。


YARN体系结构概述Yet Another Resource Negotiator简称YARN,另一个资源协调员是Hadoop的资源管理器。


1 )资源管理器(RM ) :整个集群资源(内存、CPU等)的老板


3 )应用程序主程序(am ) :执行单个任务的老板


2 )节点管理器(nm )单节点服务器资源的老板


4 ) Container )容器,一个相当独立的服务器,封装在里面


执行任务所需的资源,如内存、CPU、磁盘和网络。


MapReduce体系结构概述MapReduce将计算过程分为两个阶段: Map和Reduce


1 ) Map阶段并行处理输入数据


2 )在Reduce阶段总结映射结果


大数据技术生态系统


1 ) sqoop ) sqoop是一种开源工具,主要用于在Hadoop、Hive和传统数据库(MySQL )之间交换数据,例如关系数据库(MySQL、Oracle


2 ) Flume ) Flume是一个高可用性、可靠、分布式的大容量日志收集、聚合和传输系统。 Flume支持自定义日志系统中的数据源以收集数据。


3 ) kafka ) kafka是高通量的分布式发布订阅消息系统


4 ) Spark:Spark是目前最流行的开源大数据内存计算框架。 可以根据存储在Hadoop中的大数据进行计算。


5 ) Flink:Flink是目前最流行的开源大数据内存计算框架。 用于实时计算的场景很多。


6 ) Oozie:Oozie是管理Hadoop作业(job )的工作流日程管理系统。


7 ) Hbase:HBase是一个分布式的、面向列的开源数据库。 HBase与常见的关系数据库不同,它是一个适用于非结构化数据存储的数据库。


8 ) Hive:Hive是一个基于Hadoop的数据仓库工具,它提供了将结构化数据文件映射到数据库表并将SQL语句转换为MapReduce任务并执行的简单SQL查询功能。 优点是学习费用低,可以在类SQL语句中快速实现简单的MapReduce统计信息,无需开发专用的MapReduce APP应用程序,完全适用于数据仓库的统计分析。


9 ) ZooKeeper )是面向大型分布式系统的可靠协调系统,提供配置维护、命名服务、分布式同步和组服务等功能。


推荐阅读
  • 帝国CMS中的信息归档功能详解及其重要性
    本文详细解析了帝国CMS中的信息归档功能,并探讨了其在内容管理中的重要性。通过归档功能,用户可以有效地管理和组织大量内容,提高网站的运行效率和用户体验。此外,文章还介绍了如何利用该功能进行数据备份和恢复,确保网站数据的安全性和完整性。 ... [详细]
  • 本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS,然后通过MapReduce清洗数据,使用Hive进行数据分析,并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • Hadoop的分布式架构改进与应用
    nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在CentOS 7环境中安装配置Redis及使用Redis Desktop Manager连接时的注意事项与技巧
    在 CentOS 7 环境中安装和配置 Redis 时,需要注意一些关键步骤和最佳实践。本文详细介绍了从安装 Redis 到配置其基本参数的全过程,并提供了使用 Redis Desktop Manager 连接 Redis 服务器的技巧和注意事项。此外,还探讨了如何优化性能和确保数据安全,帮助用户在生产环境中高效地管理和使用 Redis。 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • 浏览器作为我们日常不可或缺的软件工具,其背后的运作机制却鲜为人知。本文将深入探讨浏览器内核及其版本的演变历程,帮助读者更好地理解这一关键技术组件,揭示其内部运作的奥秘。 ... [详细]
  • 提升 Kubernetes 集群管理效率的七大专业工具
    Kubernetes 在云原生环境中的应用日益广泛,然而集群管理的复杂性也随之增加。为了提高管理效率,本文推荐了七款专业工具,这些工具不仅能够简化日常操作,还能提升系统的稳定性和安全性。从自动化部署到监控和故障排查,这些工具覆盖了集群管理的各个方面,帮助管理员更好地应对挑战。 ... [详细]
  • 小王详解:内部网络中最易理解的NAT原理剖析,挑战你的认知极限
    小王详解:内部网络中最易理解的NAT原理剖析,挑战你的认知极限 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 在Hive中合理配置Map和Reduce任务的数量对于优化不同场景下的性能至关重要。本文探讨了如何控制Hive任务中的Map数量,分析了当输入数据超过128MB时是否会自动拆分,以及Map数量是否越多越好的问题。通过实际案例和实验数据,本文提供了具体的配置建议,帮助用户在不同场景下实现最佳性能。 ... [详细]
  • 在Linux系统中,原本已安装了多个版本的Python 2,并且还安装了Anaconda,其中包含了Python 3。本文详细介绍了如何通过配置环境变量,使系统默认使用指定版本的Python,以便在不同版本之间轻松切换。此外,文章还提供了具体的实践步骤和注意事项,帮助用户高效地管理和使用不同版本的Python环境。 ... [详细]
  • 阿里云大数据计算服务MaxCompute (原名 ODPS)
     MaxCompute是阿里EB级计算平台,经过十年磨砺,它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作,这些工作背后的原因是什 ... [详细]
author-avatar
娜一刻冻杰幸福
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有