热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据技术原理与应用:大数据处理架构Hadoop生态圈

Hadoop生态圈概述Hadoop简介什么是Apachehadoop?ApacheHadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件ApacheHadoop软件
Hadoop生态圈

概述

Hadoop简介
什么是Apache hadoop?
Apache Hadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件

Apache Hadoop 软件库是一个允许在集群计算机上使用简单的编程模型来进行大数据集的分布式任务的框架。它是设计来从单服务器扩展到成千台机器上,每个机器都能高效地提供本地的计算和存储。

Hadoop发展历史

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

Hadoop特性

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

Hadoop在企业应用架构

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

Hadoop版本演变

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop Version:0.x为Hadoop1.0;从0.23.x开始为Hadoop2.x

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop版本架构演变:将繁重的调度工作整合成一个Yarn框架

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 其他版本Hadoop

Hadoop架构

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop生态圈

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 产品功能简介

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop生态系统图

产品术语说明

Hadoop项目包括模块:

  • Hadoop Common :通用的工具来支持其他的Hadoop模块
  • Hadoop Distributed FileSystem(HDFS):一个提供高可用获取应用数据的分布式文件系统
  • Hadoop YARN;Job调度和集群资源管理的框架
  • Hadoop MapReduce:基于YARN系统的并行处理大数据集的编程模型
    其他Hadoop相关的项目:
  • Ambari:一个基于web的工具,用来供应、管理和监测Apache Hadoop集群包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari 也提供一个可视的仪表盘来查看集群的健康状态(比如热图),并且能够以一种用户友好的方式根据其特点可视化的查看MapReduce、pig和Hive 应用来诊断其性能特征。
  • Avro :数据序列化系统。
  • Cassandra :可扩展的多主节点数据库,而且没有单节点失败情况。
  • Chukwa : 管理大型分布式系统的数据收集系统
  • HBase ; 一个可扩展的分布式数据库,支持大表的结构化数据存储
  • Hive : 一个提供数据概述和AD组织查询的数据仓库
  • Mahout :可扩展大的机器学习和数据挖掘库
  • Pig :一个支持并行计算的高级的数据流语言和执行框架
  • Spark : 一个快速通用的Hadoop数据的计算引擎。spark 提供一个简单和富有表现力的编程模型并支持多领域应用,包括ETL、机器学习、流处理 和图计算。
  • Tez : 一个通用的数据流处理框架,构建在Hadoop YARN上,提供一个有力的灵活的引擎来执行一个任意的DAG任务来处理数据(批处理和交互式两种方式)。Tez 可以被Hive、Pig和其他Hadoop生态系统框架和其他商业软件(如:ETL工具)使用,用来替代Hadoop MapReduce 作为底层的执行引擎。
  • ZooKeeper :一个应用于分布式应用的高性能的协调服务。

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 ambari通过开发提供、管理和监测Hadoop集群的软件使得hadoop的管理更简单
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Avro 是数据序列化系统,简单的集成了动态语言,代码生成不再需要读写数据文件也不再使用或集成RPC协议。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Cassandra是一个高可扩展的、最终一致、分布式、结构化的k-v仓库,Cassandra将BigTable的数据模型和Dynamo的分布式系统技术整合在一起。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Chukwa 是一个监测大型分布式系统的开源数据收集系统。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hbase是一个开源的,分布式,版本化,非关系的数据库,仿照自Google的BigTable,BigTable的分布式数据存储由GFS(Google File System)提供,HBase在Hadoop和HDFS上提供类似大表能力。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hive架构:Apache Hive数据仓库软件用于查询和管理大数据集驻扎在分布式仓库上。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 mahout 项目目标是构建一个快速创建可扩展高性能的机器学习应用的环境。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Pig是数据流执行引擎
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Spark庞大的生态圈
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Tez是一个针对Hadoop数据处理应用程序的新分布式执行框架
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 ZooKeeper是一个开源的来提供高可靠的分布式协调的服务

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Flume是一个分布式、可靠的、高可用的有效收集、聚合和转移大量日志文件的服务

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Impala类似与Hive,是Cloudera公司主导开发的新型查询系统,比hive更加高效

Hadoop 安装部署

伪分布式安装

目前Hadoop的Stable版本归为2.9.0,这里以2.9.0版本为例子:

部署教程可以看我的另外一篇文章:Centos7部署Hadoop伪分布式集群.

集群部署建议

Hadoop集群中需要有哪些节点类型?

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

集群硬件要求

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 硬件配置推荐

集群网络拓扑建议

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 集群网络拓扑

集群部署方式建议

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 集群部署方式建议

集群基准测试建议

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop集群基准测试:TestDFSIO/WordCountExample.jar


推荐阅读
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • 流处理中的计数挑战与解决方案
    本文探讨了在流处理中进行计数的各种技术和挑战,并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性,还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]
  • 深入解析:存储技术的演变与发展
    本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程,详细解释了各种存储模型及其特点。 ... [详细]
  • Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成,其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法,并详细介绍了 MapReduce 日志管理的最佳实践,旨在帮助用户更好地理解和优化日志处理流程,提高系统运维效率。 ... [详细]
  • 前期Linux环境准备1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等集群规划主机 IP安装软件运行进 ... [详细]
  • 【原创】七、Hadoop 2.5.2+zookeeper高可用部署
    一、原理(四大要点)(1)保证元数据一致(edits)namenode(fsimage edits)a、NFSb、journalnodec、zk(2)只有一台namenode对外提 ... [详细]
  • 本文探讨了在一个物理隔离的环境中构建数据交换平台所面临的挑战,包括但不限于数据加密、传输监控及确保文件交换的安全性和可靠性。同时,作者结合自身项目经验,分享了项目规划、实施过程中的关键决策及其背后的思考。 ... [详细]
  • 深入理解云计算与大数据技术
    本文详细探讨了云计算与大数据技术的关键知识点,包括大数据处理平台、社会网络大数据、城市大数据、工业大数据、教育大数据、数据开放与共享的应用,以及搜索引擎与Web挖掘、推荐技术的研究及应用。文章还涵盖了云计算的基础概念、特点和服务类型分类。 ... [详细]
  • 实践指南:使用Express、Create React App与MongoDB搭建React开发环境
    本文详细介绍了如何利用Express、Create React App和MongoDB构建一个高效的React应用开发环境,旨在为开发者提供一套完整的解决方案,包括环境搭建、数据模拟及前后端交互。 ... [详细]
  • 本文详细介绍如何在华为鲲鹏平台上构建和使用适配ARM架构的Redis Docker镜像,解决常见错误并提供优化建议。 ... [详细]
  • 协程作为一种并发设计模式,能有效简化Android平台上的异步代码处理。自Kotlin 1.3版本引入协程以来,这一特性基于其他语言的成熟理念,为开发者提供了新的工具,以增强应用的响应性和效率。 ... [详细]
  • 本文探讨了一种统一的语义数据模型,旨在支持物联网、建筑及企业环境下的数据转换。该模型强调简洁性和可扩展性,以促进不同行业间的插件化和互操作性。对于智能硬件开发者而言,这一模型提供了重要的参考价值。 ... [详细]
  • Redis:缓存与内存数据库详解
    本文介绍了数据库的基本分类,重点探讨了关系型与非关系型数据库的区别,并详细解析了Redis作为非关系型数据库的特点、工作模式、优点及持久化机制。 ... [详细]
  • 本文详细介绍了如何使用Heartbeat构建一个高可用性的Apache集群,包括安装、配置和测试步骤。 ... [详细]
  • Hadoop + Spark安装(三) —— 调hadoop
    ***************************测试hadoop及问题跟进***************************执行以下语句报错datahadoop-2.9. ... [详细]
author-avatar
Carmen果果时代
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有