看ServerlessTask如何解决任务调度&可观测性中的问题

作者： | 来源：互联网 | 2023-07-10 11:25

本篇我们将会进一步走进函数计算异步任务，介绍异步任务的调度方案以及系统在可观测性方

在上篇文章《解密函数计算异步任务能力之「任务的状态及生命周期管理」》中，我们介绍了任务系统的状态管理，并介绍了用户应如何根据需求，对任务状态信息进行实时的查询等操作。在本篇中我们将会进一步走进函数计算异步任务，介绍异步任务的调度方案以及系统在可观测性方面所支持的各项功能。

一、任务调度

任务调度多指系统根据当前负载情况，将不同任务放到合适的计算资源中去执行的相关操作。一个完善的调度系统往往需要平衡不同特点的任务间的隔离以及效率最优这两个需求。函数计算异步任务采用了独立队列模型及自动负载均衡策略，具备在不影响处理性能的前提下进行多租隔离的能力。

Serverless Task 任务调度模型

当用户提交一次任务后，系统会将该任务转换为一条消息，并通过异步下发的方式放入到内部队列中。一条消息的处理流程如下图所示：

图 1

整个系统在任务调度方面的多租隔离及消息积压控制方面主要依赖的是 Scheduler 对于队列的消费及控制。我们事先会为每一位用户划分一个账号级别的队列，该用户的所有函数的异步调用（包括任务调用）会共享该队列。

这样的模型结构会保证每个用户的异步执行请求（包括任务调用）均不会受到其他用户的调用情况的影响。但是在一些大规模应用场景，如一个用户的函数很多，并且每个函数的调用量都很大的情况下，所有的异步消息共用一个队列难免造成调用间的相互影响。部分长尾调用可能会过多的消耗队列的资源，导致其他函数的执行出现饥饿的现象。

为了避免这种情况影响重要函数的执行，函数计算提供了更细力度的队列 - 函数级别的队列。可以通过对每个不同函数设置单独的队列，确保高优先级函数的消费情况不会受同账号下的其他函数执行的影响。队列间的关系如下图所示:

图 2

典型的应用场景

假设某用户 A 具有 2 个不同的任务函数。其中一个任务 A 由于下游服务的限制，需要一个消息一个消息的执行；而另外一个任务 B 是大并发任务，并且希望尽快执行完。在默认模式下，任务 A 和 B 共享同一个用户队列；这时会出现如下场景：任务 A 由于具有并发度限制，函数计算侧会对整个任务队列进行出队速率控制。这就导致了任务 B 的任务迟迟无法出队。

而当任务 A 执行完后，任务 B 得到了出队机会，此时并发度升高，任务 B 的消息抢占了资源池进行执行，任务 A 又变得难以出队，很长时间也无法开始一次执行。这样的结果就是无论 A 还是 B 都受到了对方业务的严重干扰。

当进行队列调整后，任务 A 和 B 分别独占队列。在这种情况下任务 A 和 B 的消费速度不受对方影响，都可以达到自身的诉求。

目前 Serverless Task 提供了任务积压大盘，您可以在任务界面获取目前已经积压的任务数，综合分析是否需要开启函数的独占队列。

Serverless Task 任务队列负载均衡模型

上面介绍了如何通过函数级别队列来避免出现 “Noisy Neighbour” 问题。但是在一些场景下，如果任务的并发量级过大，即便对该任务划分了单队列，也会导致任务的积压。这个问题的解决需要引入 Serverless Task 的负载均衡策略。

函数计算的任务处理模块具有 Partition 的概念。每个用户默认属于一个 Partition，负责该 Partition 的 Scheduler 会监听用户对应的任务队列。当出现严重积压时，我们会为用户按照负载情况分配多个 Partition，并交由不同的 Scheduler 负责消费，来提升任务整体的消费速度。

图 3

可以看到，阿里云函数计算在任务队列管理方面默认做到了多租及隔离的能力，可以适用于绝大多数场景。针对一些重负载、长执行、并发量大的场景，函数计算还支持横向扩容，加快消费速度。在任务隔离方面，函数计算支持针对不同优先级的函数进行单独隔离，避免出现 Noisy Neighbour 的问题。

二、可观测性

任务的可观测能力是任务系统必不可少的能力之一。强大的可观测性将有助于业务方减少在任务运行的各个阶段所需要额外进行的工作量。

开发阶段：任务的在线调试能力、运行结果的 Debug 能力将直接影响业务上线进度；

业务常规运行阶段：各种监控、流量情况的统计以及运行时日志将协助用户快速了解业务的发展、变化，以及出现故障时的快速定位 & 处理；

阶段性审计：任务的历史记录存储及保留将为用户提供良好的可追溯能力，可以根据历史信息进行后续的业务规划。

ServerlessTask 可观测性支持 - 开发测试阶段

业务的开发阶段最主要的诉求就是快速调试并定位问题。在对该阶段的支持中，ServerlessTask 提供了登录实例及实时日志的能力。当代码开发并上传后，测试 - debug - 修改代码 - 再次测试的流程可以全部在控制台完成，极大的提高了研发效率。如果有需要性能调试、第三方 Binary 调试（如音视频处理领域的 FFmpeg 调试）等可以借助登录实例功能完成。操作流程如下图所示：

选择想登录实例的任务，点击实例链接。

会进入到实例监控页面，点击右上角的登录实例功能，即可登录到对应的实例上。

ServerlessTask 可观测性支持 - 业务上线后运行阶段

当业务上线后，经常容易出现因容量预估不足导致下游系统无法承载压力，导致故障。因此 ServerlessTask 提供了运行时指标，即一段时间内的任务提交数、完成数及执行情况。用户可以根据这张指标图快速了解当前业务的负载情况。当用户任务的下游消费较慢，可能造成任务积压，这种情况也很容易在指标图中反映出，进而快速做出相应的反应。目前 ServerlessTask 所提供的相关指标如下：

任务监控大盘提供以下任务监控数据：

监控指标	说明
提交的任务数	在过去 1 分钟内所提交的任务总数，包括运行中的、已完成的及未出队的数量。
完成的任务数	在过去 1 分钟内提交的任务所完成的任务数，包括执行成功或失败的。
排队中的任务数	在过去 1 分钟内提交的任务，还在排队中的数量。如果该数量不为 0，则说明任务有积压。
运行中的任务数	在过去 1 分钟内提交的任务处于运行中的任务数。
运行失败任务数	在过去 1 分钟内提交的任务处于运行失败的任务数。
运行已占用实例数	在过去 1 分钟内提交的任务处于运行成功的任务数。

在快速定位问题方面，函数计算支持实时查看函数日志及实例指标。您可以进入到任务的列表页面，找到实际执行失败的任务，进入日志页面及实例页面进行问题定位：

ServerlessTask 可观测性支持 - 阶段性审计

当线上任务运行一段时间后，往往需要进行一系列的阶段性审计工作，比如上一周的执行总任务数，执行失败的任务数及执行失败的时间。目前除了控制台以外，函数计算提供了丰富的 API 能力来进行任务的审计工作。主要包括以下几方面能力：

根据状态进行过滤，只查询某一个状态的执行；

根据触发时间进行过滤，如查询过去某一段时间内发起的任务；

根据任务名称查询。如果您的任务具有业务上下游的 TraceID，您可以在触发任务时指定一个有意义的任务ID。后续可以根据 ID 前缀进行范围查询；

上面的几个过滤方式可以组合，达到更便捷的需求。控制台所支持的过滤条件如下图所示：

更多参数内容可参考： ListStatefulAsyncInvocation 。

ServerlessTask 可观测性支持 - 死信队列及业务补偿

在消息领域，有一个非常重要的概念 - 死信队列。当一些消息无法被消费时，这些消息往往需要存储到一个地方，以便后续人为的介入处理，避免因未进行处理而造成业务损失。Serverless Task 也支持了这样一类功能。您可以对 Serverless Task 设置目标功能；当任务执行失败后，函数计算支持自动将执行失败的上下文信息推送到消息队列等消息服务中，以便后续处理。如果您的处理逻辑支持自动化，函数计算还支持将失败任务的上下文信息推送回函数计算，执行一段您的自定义业务逻辑来实现业务补偿。

您可以在异步调用配置页面配置成功及失败目标。

更多配置内容请参考：PutFunctionAsyncInvokeConfig。

综上所述，Serverless Task 所提供的可观测能力可以有效支持任务全生命周期的监测需求。所有控制台能力均可以使用开放 API 进行定制化开发，来满足更多的需求。Serverless Task 的目标功能除了可以做到任务失败补偿以外，还可以作为 Event-Driven 模式的数据源，自动的将处理后的事件投递到下游服务中。

原文链接

本文为阿里云原创内容，未经允许不得转载。

推荐阅读

include
如何更有效地提升对支持部门的协助与支撑？ - Enhancing Support for the Support Department: Strategies and Best Practices

尽管我们尽最大努力，任何软件开发过程中都难免会出现缺陷。为了更有效地提升对支持部门的协助与支撑，本文探讨了多种策略和最佳实践，旨在通过改进沟通、增强培训和支持流程来减少这些缺陷的影响，并提高整体服务质量和客户满意度。 ... [详细]

蜡笔小新 2024-11-07 06:55:33
ip
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
spring
微服务优雅上下线的最佳实践

本文介绍了微服务上下线的正确姿势，避免使用 kill -9 等粗暴手段，确保服务的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-14 16:22:57
dll
包含phppdoerrorcode的词条

包含phppdoerrorcode的词条 ... [详细]

蜡笔小新 2024-11-14 12:06:14
include
CentOS 7 中配置开机自动挂载 NFS 的解决方案

本文详细介绍了在 CentOS 7 系统中配置 fstab 文件以实现开机自动挂载 NFS 共享目录的方法，并解决了常见的配置失败问题。 ... [详细]

蜡笔小新 2024-11-13 12:05:24
include
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
ip
InfluxDB、collectd与Grafana的详细安装与配置指南

本文详细介绍了 InfluxDB、collectd 和 Grafana 的安装与配置流程。首先，按照启动顺序依次安装并配置 InfluxDB、collectd 和 Grafana。InfluxDB 作为时序数据库，用于存储时间序列数据；collectd 负责数据的采集与传输；Grafana 则用于数据的可视化展示。文中提供了 collectd 的官方文档链接，便于用户参考和进一步了解其配置选项。通过本指南，读者可以轻松搭建一个高效的数据监控系统。 ... [详细]

蜡笔小新 2024-11-11 19:54:24
const
深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧

深入解析Struts、Spring与Hibernate三大框架的面试要点与技巧 ... [详细]

蜡笔小新 2024-11-11 13:09:30
include
深入解析Android 4.4中的Fence机制及其应用

在Android 4.4中，Fence机制是处理缓冲区交换和同步问题的关键技术。该机制广泛应用于生产者-消费者模式中，确保了不同组件之间高效、安全的数据传输。通过深入解析Fence机制的工作原理和应用场景，本文探讨了其在系统性能优化和资源管理中的重要作用。 ... [详细]

蜡笔小新 2024-11-09 19:30:27
ip
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
get
在Linux系统上彻底卸载Zimbra邮件系统

本文详细介绍了如何在Linux系统（以CentOS为例）上彻底卸载Zimbra邮件系统，包括停止服务、删除文件和用户等步骤。 ... [详细]

蜡笔小新 2024-11-13 14:32:16
ip
Linux CentOS 7 安装PostgreSQL 9.5.17 （源码编译）

近日需要将PostgreSQL数据库从Windows中迁移到Linux中，LinuxCentOS7安装PostgreSQL9.5.17安装过程特此记录。安装环境&#x ... [详细]

蜡笔小新 2024-11-12 22:05:03
ip
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
include
poj 3352 Road Construction

poj 3352 Road Construction ... [详细]

蜡笔小新 2024-11-12 11:24:39
byte
基于Linux开源VOIP系统LinPhone[四]

****************************************************************************************** ... [详细]

蜡笔小新 2024-11-12 11:00:11

Tags | 热门标签

RankList | 热门文章