Spark应用场景

作者：Damon777 | 来源：互联网 | 2023-09-16 13:23

4、Spark应用场景目前大数据处理场景主要有以下几种类型：1、复杂的批处理（BatchDataProcessing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间

4、Spark应用场景

目前大数据处理场景主要有以下几种类型：

1、复杂的批处理（Batch Data Processing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时； 2、基于历史数据的交互式查询（Interactive Query），通常的时间在数十秒到数十分钟之间； 3、基于实时数据流的大数据处理（Streaming Data Processing），通常在数百毫秒到数秒之间；

目前对以上三种场景需求都有比较成熟的处理框架：

第一种情况可以用 Hadoop 的 MapReduce 来进行批量海量数据处理

第二种情况可以 Impala、Kylin 进行交互式查询

第三中情况可以用 Storm 分布式处理框架处理实时流式数据

以上三者都是比较独立，各自一套维护成本比较高，而 Spark 的出现能够一站式平台满意以上需求。

第一种情况使用 Spark Core 解决

第二种情况使用 Spark SQL 解决

第三种情况使用 Spark Streaming 解决

通过以上分析，总结 Spark 场景有以下几个：

1、Spark 是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小； 2、由于 RDD 的特性，Spark 不适用那种异步细粒度更新状态的应用，例如 web 服务的存储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合； 3、数据量不是特别大，但是要求实时统计分析需求；

典型行业的应用有：

1、Yahoo 将 Spark 用在 Audience Expansion 中的应用，进行点击预测和即席查询等; 2、淘宝技术团队使用了 Spark 来解决多次迭代的机器学习算法、高计算复杂度的算法等。应用于内容推荐、社区发现等 ; 3、腾讯大数据精准推荐借助 Spark 快速迭代的优势，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通 PCTR 投放系统上; 4、优酷土豆将 Spark 应用于视频推荐(图计算)、广告业务，主要实现机器学习、图计算等迭代计算; 5、……

转载请标明出处：https://blog.csdn.net/qq_42246689/article/details/85866013

推荐阅读

default
Java代码保护与混淆：ProGuard详解

在Java开发中，保护代码安全是一个重要的课题。由于Java字节码容易被反编译，因此使用代码混淆工具如ProGuard变得尤为重要。本文将详细介绍如何使用ProGuard进行代码混淆，以及其基本原理和常见问题。 ... [详细]

蜡笔小新 2024-11-18 16:46:17
text
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
text
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
lua
电商高并发解决方案详解

本文以京东为例，详细探讨了电商中常见的高并发解决方案，包括多级缓存和Nginx限流技术，旨在帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-18 14:59:39
default
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
text
Maven + Spring + MyBatis + MySQL 环境搭建与实例解析

本文详细介绍如何使用MySQL数据库进行环境搭建，包括创建数据库表并插入示例数据。随后，逐步指导如何配置Maven项目，整合Spring框架与MyBatis，实现高效的数据访问。 ... [详细]

蜡笔小新 2024-11-21 18:39:23
text
龙蜥社区开发者访谈：技术生涯的三次蜕变 | 第3期

龙蜥社区的开发者们通过自己的实践和经验，推动着开源技术的发展。本期「龙蜥开发者说」聚焦于一位资深开发者的三次技术转型，分享他在龙蜥社区的成长故事。 ... [详细]

蜡笔小新 2024-11-21 11:12:28
ip
探索阿里巴巴的开源世界

从理想主义者的内心深处萌发的技术信仰，推动了云原生技术在全球范围内的快速发展。本文将带你深入了解阿里巴巴在开源领域的贡献与成就。 ... [详细]

蜡笔小新 2024-11-21 09:06:54
list
Ubuntu 16.04 上 PostgreSQL 的高效安装与配置指南

本文详细介绍了在 Ubuntu 16.04 系统上安装和配置 PostgreSQL 数据库的方法，包括如何设置监听地址、启用密码加密、更改默认用户密码以及调整客户端访问控制。 ... [详细]

蜡笔小新 2024-11-20 22:17:50
text
使用Service Locator模式实现高效的服务命名访问

本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问，特别是对于需要频繁访问的服务，如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本，并提供了对多种服务的统一访问接口。 ... [详细]

蜡笔小新 2024-11-20 19:26:30
text
C# 中创建和执行存储过程的方法

本文详细介绍了如何使用 C# 创建和调用 SQL Server 存储过程，包括连接数据库、定义命令类型、设置参数等步骤。 ... [详细]

蜡笔小新 2024-11-19 19:55:59
list
开发技巧: Effective Java第三版——优先选用Collection而非Stream作为方法返回类型

在Effective Java第三版中，建议在方法返回类型中优先考虑使用Collection而非Stream，以提高代码的灵活性和兼容性。 ... [详细]

蜡笔小新 2024-11-19 15:31:16
ip
如何在U8系统中连接服务器并获取数据

本文介绍了如何在U8系统中通过不同的方法连接服务器并获取数据，包括使用MySQL客户端连接实例的方法，如非SSL连接和SSL连接，并提供了详细的步骤和注意事项。 ... [详细]

蜡笔小新 2024-11-19 12:08:19
text
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
text
解析与应用：org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens() 方法

本文详细介绍了 `org.apache.hadoop.hdfs.server.namenode.FSNamesystem.shouldUseDelegationTokens()` 方法的用途和实际应用场景，并提供了多个代码示例以帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-18 17:59:10

Damon777

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章