热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

大数据运营_大数据运营之孕育:分析处理系统容量设计方法

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据运营之孕育:分析处理系统容量设计方法相关的知识,希望对你有一定的参考价值。【本文摘自:李福东《大数据运营》3.5

篇首语:本文由编程笔记#小编为大家整理,主要介绍了大数据运营之孕育:分析处理系统容量设计方法相关的知识,希望对你有一定的参考价值。



【本文摘自:李福东《大数据运营》3.5.1.2,了解更多,请关注微信公号:李福东频道


编者按

大数据服务通常要经过数据ETL、数据存储、数据分析、数据展示、数据开放的过程,因此在计算能力、存储能力以及网络能力的估算上也有自身的特点。


正文

与事务处理应用相比,大数据服务属于分析处理应用,由于两者的数据处理特点不同,因此容量估算方法也有一定的区别。

大数据服务通常要经过数据ETL、数据存储、数据分析、数据展示、数据开放的过程,因此在计算能力、存储能力以及网络能力的估算上也有自身的特点。

大数据服务在不同阶段对于基础设施的需求如图3-2-19所示:

技术图片

? ? ? ? ? ? ? ? ? ?图3-2-19大数据服务不同阶段基础设施需求

从图3-2-19可以看出,对于一个普通的大数据项目,通常要经过数据采集(1)、数据存储和数据转换(2.1,2.2,3.1,3.2,3.3,3.4)、数据展示(4.1,4.2)三大步骤,具体处理过程为:


第一步:从各种数据源采集数据

数据源分为内部和外部数据源两种。内部数据源是企业自身的数据,比如电信运营商的用户上网数据是从交换机获取的业务使用记录;

外部数据源是企业从外部获取的数据,比如移动终端配置数据是从第三方公司数据库获取的。采集数据的方式也分为主动和被动两种。

主动方式是主动去数据源抓取数据,比如可以通过网络爬虫在各大网站获取数据;被动方式是企业为数据源设定好存储位置,让数据提供方按照时间策略向指定位置存放数据。


第二步:数据存储和数据转换

企业可以根据数据特点不同采取不同的数据存储策略,如果数据规模大或者预期的数据规模大,传统的关系型数据库无法满足快速处理要求的,因而需要考虑采用分布式数据库,比如Hadoop/HBase。

类似Hadoop/HBase这样的分布式数据库的特点是扩展性好,如果存储空间不够,只需增加存储服务器即可。不足之处是HBase只适合单表或者多表之间关联关系简单的场景,对于需要数据操作或者多表关联的应用,还是需要基于关系型数据库实现。

关系型数据的优势就是能够对数据进行整合和统计,从而使得用户可以从多个维度来查看分析结果。当然,由于关系型数据库基于单机模式完成的架构设计,尽管也可以支持集群方式部署,但是横向扩展能力有限。

可见,多表关联查询要比键值映射方式对数据库管理系统的要求高,但是没有键值映射的方式扩展性好。

因此,在大数据存储时,需要结合应用需求和数据库存储特征来进行综合考量:使用分布式数据来存储数据规模大、增量大并且以数据查询为主的数据,采用关系型数据库完成需要多表关联的查询统计功能。

当原始数据存储到数据库中以后,需要对数据进行抽取、转换与加载,保证数据质量和应用要求。数据过程过程通常是经过初步的ETL,然后将数据存储数据仓库,接着再次对数据进行ETL,将数据加工成面向不同主题的数据集市,以便于从多个维度查看数据统计结果。


第三步:数据展示阶段

虽然已经经费了很大力气完成了数据的抽取、转换、丰富等工作,但是数据毕竟是给人看的,数据展示的越好,越容易让用户看到数据背后隐藏的事实和规律。

比如电信运营商为了查看各地区数据流量的多少,可以基于电子地图,不同数据流量区间用不同颜色标识,这样可以直观地看到各省数据流量的多寡。


(一)大数据分析处理系统容量估算方法

大数据分析处理系统容量估算可以分为:理论估算法和实验估算法两种类型。

理论估算法的数据基础包括文件数、单个文件数的记录条数、单条记录大小、数据采集周期,数据采集周期包括一次、一天、一个月等,这样就能够算出某个时间段内的总数据量大小。然后在考虑磁盘的冗余空间系数,就可以算出对于磁盘空间总的需求量。理论估算法适合于没有样本数据的场景。

理论估算法的计算公式为:存储空间大小 = 文件个数单个文件记录数单条记录大小时间长度冗余系数。

实验估算法基于某个时间段的样本数据。用户可以用操作系统自带的命令查看文件大小。如果进入数据仓库的数据从时间上是连续的,则可以通过样本数据测量值与时间长度相乘,算出大数据分析处理系统存储空间需求。

实验估算法的计算公式为:大数据分析处理系统存储空间大小 = 样本数据量大小时间长度冗余系数。


(二)大数据分析处理系统计算能力估算方法

传统数据处理与存储架构是“主机+磁盘阵列”的集群方式,主机可以是小机、PC服务器或者刀片服务器,磁盘阵列可以是NAS、SAN等,采用的协议可以是FC、IP等。

传统数据处理与存储架构解决了存储资源和计算资源的共享问题。多个服务器组成的集群可以将计算资源统一管理,接收请求的负载均衡器会根据服务器负荷将请求发送到计算资源充足的服务器。

磁盘阵列实现共享的方式更加容易理解,就是多个磁盘放到一个机箱中,机箱可以扩展并且机箱内可以热插拔磁盘,这样可以便于扩展磁盘空间。

“主机+磁盘阵列”的系统架构是将计算和存储分离,通过计算群和存储群的方式提高了并行处理能力,满足了高并发的事务处理应用的系统要求,但是这种架构也带来了新的问题,就是计算和存储资源的横向扩展能力是有限的。

大数据服务的特点是数据量大,尤其是随着时间的推移,数据量会不断增大,要求计算和存储资源能够具备几乎没有限制的扩展能力。

为了满足不断增加的数据量,谷歌公司提出了基于MapReduce和GFS的分布式计算架构,与“主机+磁盘阵列”的架构方式不同,谷歌公司利用廉价的机器设备,通过软件将能力不一的大量计算机设备连接到一起,降低了IT基础设施采购成本,提升了IT基础设施的扩展能力。随后,Apache受谷歌的GFS/MapReduce架构的启发,提出了Hadoop分布式计算架构。

可见,新型的面向大数据的分布式计算架构与“主机+磁盘阵列”的系统架构在设计思路上完全不同的,大数据计算能力估算的方法也是不同的。


作者简介

李福东,资深大数据和信息化专家,培训师,《大数据运营》著作者,现为北京某高科技公司CEO,拥有20年电信、金融、互联网等跨行业工作经验,长期致力于企业架构、大数据、人工智能、区块链、虚拟现实、数字化转型等创新与实践。

了解更多最新干货,请扫码加入本文作者知识星球(数智萤火虫),您将至少获得:

1、问题解答。72小时内答复数字科技相关问题。

2、精品文章。每周至少分享一篇原创精编长文。

3、精华PPT。最新培训、公开课PPT干货分享。

4、精美礼物。赠送小礼品、红包、作者签名书。


推荐阅读
  • Python 数据可视化实战指南
    本文详细介绍如何使用 Python 进行数据可视化,涵盖从环境搭建到具体实例的全过程。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在前一篇文章《Hadoop》系列之“踽踽独行”(二)中,我们详细探讨了云计算的核心概念。本章将重点转向物联网技术,全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈,我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外,还将讨论物联网面临的挑战,如数据安全和隐私保护等问题,并展望其在未来技术融合中的重要角色。 ... [详细]
  • 2019年后蚂蚁集团与拼多多面试经验详述与深度剖析
    2019年后蚂蚁集团与拼多多面试经验详述与深度剖析 ... [详细]
  • 秒建一个后台管理系统?用这5个开源免费的Java项目就够了
    秒建一个后台管理系统?用这5个开源免费的Java项目就够了 ... [详细]
  • 本文通过思维导图的形式,深入解析了大型网站技术架构的核心原理与实际案例。首先,探讨了大型网站架构的演化过程,从单体应用到分布式系统的转变,以及各阶段的关键技术和挑战。接着,详细分析了常见的大型网站架构模式,包括负载均衡、缓存机制、数据库设计等,并结合具体案例进行说明。这些内容不仅有助于理解大型网站的技术实现,还能为实际项目提供宝贵的参考。 ... [详细]
  • 在Java分层设计模式中,典型的三层架构(3-tier application)将业务应用细分为表现层(UI)、业务逻辑层(BLL)和数据访问层(DAL)。这种分层结构不仅有助于提高代码的可维护性和可扩展性,还能有效分离关注点,使各层职责更加明确。通过合理的设计和实现,三层架构能够显著提升系统的整体性能和稳定性。 ... [详细]
  • SSAS入门指南:基础知识与核心概念解析
    ### SSAS入门指南:基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能(BI)解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据,并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能,Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 如何高效启动大数据应用之旅?
    在前一篇文章中,我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目,涵盖关键步骤和最佳实践,帮助读者快速踏上大数据之旅。 ... [详细]
  • 揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节
    揭秘腾讯云CynosDB计算层设计优化背后的不为人知的故事与技术细节 ... [详细]
  • 字节跳动深圳研发中心安全业务团队正在火热招募人才! ... [详细]
  • MemFireDB 在实时高并发的在线事务处理(OLTP)系统中表现出色。随着移动互联网、电商和社交应用等领域的迅猛发展,传统单机关系型数据库(如MySQL)或分库分表架构已难以满足日益增长的性能需求。MemFireDB 通过其高效的内存计算能力和灵活的分布式架构,能够显著提升系统的响应速度和处理能力,确保在高负载情况下依然保持稳定性和可靠性。此外,MemFireDB 还支持复杂的查询操作和事务管理,适用于需要高性能和低延迟的应用场景。 ... [详细]
  • 从无到有,构建个人专属的操作系统解决方案
    操作系统(OS)被誉为程序员的三大浪漫之一,常被比喻为计算机的灵魂、大脑、内核和基石,其重要性不言而喻。本文将详细介绍如何从零开始构建个人专属的操作系统解决方案,涵盖从需求分析到系统设计、开发与测试的全过程,帮助读者深入理解操作系统的本质与实现方法。 ... [详细]
  • 2021年度回顾与深度分析
    2021年度回顾与深度分析 ... [详细]
author-avatar
波波无敌1989_424
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有