热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据技术原理与应用:大数据处理架构Hadoop生态圈

Hadoop生态圈概述Hadoop简介什么是Apachehadoop?ApacheHadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件ApacheHadoop软件
Hadoop生态圈

概述

Hadoop简介
什么是Apache hadoop?
Apache Hadoop项目是以可靠、可扩展和分布式计算为目的而发展而来的开源软件

Apache Hadoop 软件库是一个允许在集群计算机上使用简单的编程模型来进行大数据集的分布式任务的框架。它是设计来从单服务器扩展到成千台机器上,每个机器都能高效地提供本地的计算和存储。

Hadoop发展历史

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

Hadoop特性

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

Hadoop在企业应用架构

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

Hadoop版本演变

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop Version:0.x为Hadoop1.0;从0.23.x开始为Hadoop2.x

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop版本架构演变:将繁重的调度工作整合成一个Yarn框架

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 其他版本Hadoop

Hadoop架构

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop生态圈

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 产品功能简介

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop生态系统图

产品术语说明

Hadoop项目包括模块:

  • Hadoop Common :通用的工具来支持其他的Hadoop模块
  • Hadoop Distributed FileSystem(HDFS):一个提供高可用获取应用数据的分布式文件系统
  • Hadoop YARN;Job调度和集群资源管理的框架
  • Hadoop MapReduce:基于YARN系统的并行处理大数据集的编程模型
    其他Hadoop相关的项目:
  • Ambari:一个基于web的工具,用来供应、管理和监测Apache Hadoop集群包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari 也提供一个可视的仪表盘来查看集群的健康状态(比如热图),并且能够以一种用户友好的方式根据其特点可视化的查看MapReduce、pig和Hive 应用来诊断其性能特征。
  • Avro :数据序列化系统。
  • Cassandra :可扩展的多主节点数据库,而且没有单节点失败情况。
  • Chukwa : 管理大型分布式系统的数据收集系统
  • HBase ; 一个可扩展的分布式数据库,支持大表的结构化数据存储
  • Hive : 一个提供数据概述和AD组织查询的数据仓库
  • Mahout :可扩展大的机器学习和数据挖掘库
  • Pig :一个支持并行计算的高级的数据流语言和执行框架
  • Spark : 一个快速通用的Hadoop数据的计算引擎。spark 提供一个简单和富有表现力的编程模型并支持多领域应用,包括ETL、机器学习、流处理 和图计算。
  • Tez : 一个通用的数据流处理框架,构建在Hadoop YARN上,提供一个有力的灵活的引擎来执行一个任意的DAG任务来处理数据(批处理和交互式两种方式)。Tez 可以被Hive、Pig和其他Hadoop生态系统框架和其他商业软件(如:ETL工具)使用,用来替代Hadoop MapReduce 作为底层的执行引擎。
  • ZooKeeper :一个应用于分布式应用的高性能的协调服务。

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 ambari通过开发提供、管理和监测Hadoop集群的软件使得hadoop的管理更简单
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Avro 是数据序列化系统,简单的集成了动态语言,代码生成不再需要读写数据文件也不再使用或集成RPC协议。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Cassandra是一个高可扩展的、最终一致、分布式、结构化的k-v仓库,Cassandra将BigTable的数据模型和Dynamo的分布式系统技术整合在一起。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Chukwa 是一个监测大型分布式系统的开源数据收集系统。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hbase是一个开源的,分布式,版本化,非关系的数据库,仿照自Google的BigTable,BigTable的分布式数据存储由GFS(Google File System)提供,HBase在Hadoop和HDFS上提供类似大表能力。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hive架构:Apache Hive数据仓库软件用于查询和管理大数据集驻扎在分布式仓库上。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 mahout 项目目标是构建一个快速创建可扩展高性能的机器学习应用的环境。
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Pig是数据流执行引擎
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Spark庞大的生态圈
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Tez是一个针对Hadoop数据处理应用程序的新分布式执行框架
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 ZooKeeper是一个开源的来提供高可靠的分布式协调的服务

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具
《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Flume是一个分布式、可靠的、高可用的有效收集、聚合和转移大量日志文件的服务

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Impala类似与Hive,是Cloudera公司主导开发的新型查询系统,比hive更加高效

Hadoop 安装部署

伪分布式安装

目前Hadoop的Stable版本归为2.9.0,这里以2.9.0版本为例子:

部署教程可以看我的另外一篇文章:Centos7部署Hadoop伪分布式集群.

集群部署建议

Hadoop集群中需要有哪些节点类型?

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》

集群硬件要求

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 硬件配置推荐

集群网络拓扑建议

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 集群网络拓扑

集群部署方式建议

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 集群部署方式建议

集群基准测试建议

《大数据技术原理与应用:大数据处理架构Hadoop生态圈》 Hadoop集群基准测试:TestDFSIO/WordCountExample.jar


推荐阅读
  • 第二章:Kafka基础入门与核心概念解析
    本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统,以其卓越的性能和高吞吐量而著称。最初,Kafka被设计用于LinkedIn的活动流和运营数据处理,旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景,读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • Zookeeper作为Apache Hadoop生态系统中的一个重要组件,主要致力于解决分布式应用中的常见数据管理难题。它提供了统一的命名服务、状态同步服务以及集群管理功能,有效提升了分布式系统的可靠性和可维护性。此外,Zookeeper还支持配置管理和临时节点管理,进一步增强了其在复杂分布式环境中的应用价值。 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 本文深入探讨了NoSQL数据库的四大主要类型:键值对存储、文档存储、列式存储和图数据库。NoSQL(Not Only SQL)是指一系列非关系型数据库系统,它们不依赖于固定模式的数据存储方式,能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构;文档存储支持复杂的数据对象;列式存储优化了大数据量的读写性能;而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景,本文将详细分析它们的特点及应用实例。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • 利用ZFS和Gluster实现分布式存储系统的高效迁移与应用
    本文探讨了在Ubuntu 18.04系统中利用ZFS和Gluster文件系统实现分布式存储系统的高效迁移与应用。通过详细的技术分析和实践案例,展示了这两种文件系统在数据迁移、高可用性和性能优化方面的优势,为分布式存储系统的部署和管理提供了宝贵的参考。 ... [详细]
  • Presto:高效即席查询引擎的深度解析与应用
    本文深入解析了Presto这一高效的即席查询引擎,详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式,显著提升了查询性能,相比传统的MapReduce查询,不仅减少了数据传输的延迟,还提高了查询的准确性和效率。然而,Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景,展示了其在大数据分析领域的强大潜力。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 本文回顾了作者初次接触Unicode编码时的经历,并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析,帮助读者更好地理解和使用这些编码。 ... [详细]
  • B站服务器故障影响豆瓣评分?别担心,阿里巴巴架构师分享预防策略与技术方案
    13日晚上,在视频观看高峰时段,B站出现了服务器故障,引发网友在各大平台上的广泛吐槽。这一事件导致了连锁反应,大量用户纷纷涌入A站、豆瓣和晋江等平台,给这些网站带来了突如其来的流量压力。为了防止类似问题的发生,阿里巴巴架构师分享了一系列预防策略和技术方案,包括负载均衡、弹性伸缩和容灾备份等措施,以确保系统的稳定性和可靠性。 ... [详细]
  • ### 优化后的摘要本学习指南旨在帮助读者全面掌握 Bootstrap 前端框架的核心知识点与实战技巧。内容涵盖基础入门、核心功能和高级应用。第一章通过一个简单的“Hello World”示例,介绍 Bootstrap 的基本用法和快速上手方法。第二章深入探讨 Bootstrap 与 JSP 集成的细节,揭示两者结合的优势和应用场景。第三章则进一步讲解 Bootstrap 的高级特性,如响应式设计和组件定制,为开发者提供全方位的技术支持。 ... [详细]
  • ZooKeeper 是一个高性能的分布式数据管理和协调框架,通过实现 Paxos 算法确保了分布式环境中的数据强一致性。本文深入探讨了 ZooKeeper 的数据模型及其在复杂分布式系统中的高级应用场景,包括配置管理、命名服务和分布式锁等关键功能。通过实际案例分析,展示了如何利用 ZooKeeper 提高系统的可靠性和可扩展性。 ... [详细]
author-avatar
Carmen果果时代
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有