热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Spark应用场景

4、Spark应用场景目前大数据处理场景主要有以下几种类型:1、复杂的批处理(BatchDataProcessing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间

4、Spark应用场景

目前大数据处理场景主要有以下几种类型:

1、复杂的批处理(Batch Data Processing),偏重点在于处理
海量数据的能力,至于处理 速度可忍受,通常的时间可能是在数十分钟到数小时;
2、基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间 ;
3、基于实时数据流的大数据处理(Streaming Data Processing),通常在数百毫秒到数秒之间 ;

目前对以上三种场景需求都有比较成熟的处理框架: 

第一种情况可以用 Hadoop 的 MapReduce 来进行批量海量数据处理

第二种情况可以 Impala、Kylin 进行交互式查询

第三中情况可以用 Storm 分布式处理框架处理实时流式数据 

以上三者都是比较独立,各自一套维护成本比较高,而 Spark 的出现能够一站式平台满意以 上需求。

第一种情况使用 Spark Core 解决

第二种情况使用 Spark SQL 解决

第三种情况使用 Spark Streaming 解决 

通过以上分析,总结 Spark 场景有以下几个: 

1、Spark 是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要 反复操
作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大 的场合,受益就相对较小 ;
2、由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 web 服务的存
储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合 ;
3、数据量不是特别大,但是要求实时统计分析需求 ;

典型行业的应用有:

1、Yahoo 将 Spark 用在 Audience Expansion 中的应用,进行点击预测和即席查询等;
2、淘宝技术团队使用了 Spark 来解决多次迭代的机器学习算法、高计算复杂度的算法等。
应用于内容推荐、社区发现等 ;
3、腾讯大数据精准推荐借助 Spark 快速迭代的优势,实现了在“数据实时采集、算法实
时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通 PCTR 投放 系统上;
4、优酷土豆将 Spark 应用于视频推荐(图计算)、广告业务,主要实现机器学习、图计算等
迭代计算;
5、……

转载请标明出处:https://blog.csdn.net/qq_42246689/article/details/85866013


推荐阅读
author-avatar
Damon777
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有