详解音视频直播平台搭建中的低延时

作者：年轮033 | 来源：互联网 | 2023-10-09 19:31

详解音视频直播平台搭建中的低延时音视频实时通讯的应用场景已经随处可见，从“吃鸡”的语音对讲、直播连麦、直播答题组队开黑，再到银行视频开户等。对于开发者来讲，除了关注如何能快速实现不

详解音视频直播平台搭建中的低延时

音视频实时通讯的应用场景已经随处可见，从“吃鸡”的语音对讲、直播连麦、直播答题组队开黑，再到银行视频开户等。对于开发者来讲，除了关注如何能快速实现不同应用场景重点额音视频通讯，另一个更需要关注的可能就是“低延时”。但是，到底实时音视频传输延时应该如何“低”，才能满足你的应用场景呢？

延时的产生与优化

在聊低延时之前，我们先要讲清延时是如何产生的。由于音视频的传输路径一样，我们可以通过一张图来说明延时的产生:

在音视频传输过程中，在不同阶段都会产生延时。总体可以分为三类：

T1：设备端上的延时

音视频数据在设备端上产生延时还可以细分。设备端上的延时主要与硬件性能、采用的编解码算法、音视频数据量相关，设备端上的延时可达到 30~200ms，甚至更高。如上表所示，音频与视频分别在采集端或播放端产生延时的过程基本相同，但产生延时的原因不同。

音频在设备端上的延时：

音频采集延时：采集后的音频首先会经过声卡进行信号转换，声卡本身会产生延时，比如 M-Audio 声卡设备延迟 1ms，艾肯声卡设备延迟约为 37ms；
编解码延时：随后音频进入前处理、编码的阶段，如果采用 OPUS 标准编码，最低算法延时大约需要 2.5~60ms；
音频播放延时：这部分延时与播放端硬件性能相关。
音频处理延时：前后处理，包括 AEC，ANS，AGC 等前后处理算法都会带来算法延时，通常这里的延时就是滤波器阶数。在 10ms 以内。
端网络延时：这部分延时主要出现在解码之前的 jitter buffer 内，如果在抗丢包处理中，增加了重传算法和前向纠错算法，这里的延时一般在 20ms 到 200ms 左右。但是受到 jitter buffer 影响，可能会更高。

视频在设备端上的延时：

采集延时：采集时会遇到成像延迟，主要由 CCD 相关硬件产生，市面上较好的 CCD 一秒可达 50 帧，成像延时约为 20ms，如果是一秒 20~25 帧的 CCD，会产生 40~50ms 的延时；
编解码延时：以 H.264 为例，它包含 I、P、B 三种帧（下文会详细分析），如果是每秒 30 帧相连帧，且不包括 B 帧（由于 B 帧的解码依赖前后视频帧会增加延迟），采集的一帧数据可能直接进入编码器，没有 B 帧时，编码的帧延时可以忽略不计，但如果有 B 帧，会带来算法延时。
视频渲染延时：一般情况下渲染延时非常小，但是它也会受到系统性能、音画同步的影响而增大。
端网络延时：与音频一样，视频也会遇到端网络延时。

另外，在设备端，CPU、缓存通常会同时处理来自多个应用、外接设备的请求，如果某个问题设备的请求占用了 CPU，会导致音视频的处理请求出现延时。以音频为例，当出现该状况时，CPU 可能无法及时填充音频缓冲区，音频会出现卡顿。所以设备整体的性能，也会影响音视频采集、编解码与播放的延时。

T2：端与服务器间的延时

影响采集端与服务器、服务器与播放端的延时的有以下主几个因素：客户端同服务间的物理距离、客户端和服务器的网络运营商、终端网络的网速、负载和网络类型等。如果服务器就近部署在服务区域、服务器与客户端的网络运营商一致时，影响上下行网络延时的主要因素就是终端网络的负载和网络类型。一般来说，无线网络环境下的传输延时波动较大，传输延时通常在 10~100ms 不定。而有线宽带网络下，同城的传输延时能较稳定的低至 5ms~10ms。但是在国内有很多中小运营商，以及一些交叉的网络环境、跨国传输，那么延时会更高。

T3：服务器间的延时

在此我们要要考虑两种情况，第一种，两端都连接着同一个边缘节点，那么作为最优路径，数据直接通过边缘节点进行转发至播放端；第二种，采集端与播放端并不在同一个边缘节点覆盖范围内，那么数据会经由“靠近”采集端的边缘节点传输至主干网络，然后再发送至“靠近”播放端的边缘节点，但这时服务器之间的传输、排队还会产生延时。仅以骨干网络来讲，数据传输从黑龙江到广州大约需要 30ms，从上海到洛杉矶大约需要 110ms~130ms。

在实际情况下，我们为了解决网络不佳、网络抖动，会在采集设备端、服务器、播放端增设缓冲策略。一旦触发缓冲策略就会产生延时。如果卡顿情况多，延时会慢慢积累。要解决卡顿、积累延时，就需要优化整个网络状况。

综上所述，由于音视频在采集与播放端上的延时取决于硬件性能、编解码内核的优化，不同设备，表现不同。所以通常市面上常见的“端到端延时”指的是 T2+T3。

延时低≠通话质量可靠

不论是教育、社交、金融，还是其它场景下，大家在开发产品时可能会认为“低延时”一定就是最好的选择。但有时，这种“追求极致”也是陷入误区的表现，低延时不一定意味着通讯质量可靠。由于音频与视频本质上的差异，我们需要分别来讲实时音频、视频的通讯质量与延时之间的关系。

音频质量与延时

音频采样示意图

影响实时音频通讯质量的因素包括：音频采样率、码率、延时。音频信息其实就是一段以时间为横轴的正弦波，它是一段连续的信号（如上图）。

采样率：是每秒从连续信号中提取并组成离散信号的采样个数。采样率越高，音频听起来越接近真实声音。

码率：它描述了单位时间长度的媒体内容需要空间。码率越高，意味着每个采样的信息量就越大，对这个采样的描述就越精确，音质越好。

假设网络状态稳定不变，那么采样率越高、码率越高，音质就越好，但是相应单个采样信息量就越大，那么传输时间可能会相对更长。

对照我们之前的公式，如果想要达到低延时，那么可以提高网络传输效率，比如提高带宽、网络速度，这在实验室环境下可以轻易实现。但放到生活环境中，弱网、中小运营商等不可控的问题必定会影响网络传输效率，最后结果就是通讯质量没有保障。还有一种方法，就是降低码率，那么会损失音质。

视频质量与延时

影响实时视频质量的因素包括：码率、帧率、分辨率、延时。其中视频的码率与音频码率相似，是指单位时间传输的数据位数。码率越大，画面细节信息越丰富，视频文件体积越大。

**帧：**正如大家所知，视频由一帧帧图像组成，如上图所示为 H.264 标准下的视频帧。它以 I 帧、P 帧、B 帧组成的 GOP 分组来表示图像画面（如下图）：I 帧是关键帧，带有图像全部信息；P 帧是预测编码帧，表示与当前与前一帧（I 或 P 帧）之间的差别；B 帧是双向预测编码帧，记录本帧与前后帧的差别。

**帧率：**它是指每秒钟刷新的图像帧数。它直接影响视频的流畅度，帧率越大，视频越流畅。由于人类眼睛与大脑处理图像信息非常快，当帧率高于 24fps 时，画面看起来是连贯的，但这只是一个起步值。在游戏场景下，帧率小于 30fps 就会让人感到画面不流畅，当提升到 60fps 时会带来更实时的交互感，但超过 75fps 后一般很难让人感到有什么区别了。

**分辨率：**是指单位英寸中所包含的像素点数，直接影响图像的清晰度。如果将一张 640 x 480 与 1024 x 768 的视频在同一设备上全屏播放，你会感到清晰度明显不同。

在分辨率一定的情况下，码率与清晰度成正比关系，码率越高，图像越清晰；码率越低，图像越不清晰。

在实时视频通话情况下，会出现多种质量问题，比如：与编解码相关的画面糊、不清晰、画面跳跃等现象，因网络传输问题带来的延时、卡顿等。所以解决了低延时，只是解决了实时音频通讯的一小部分问题而已。

综上来看，如果在网络传输稳定的情况下，想获得越低的延时，就需要在流畅度、视频清晰度、音频质量等方面进行权衡。

不同场景下的延时

我们通过下表看到每个行业对实时音视频部分特性的大致需求。但是每个行业，不仅对低延时的要求不同，对延时、音质、画质，甚至功耗之间的平衡也有要求。在有些行业中，低延时并非永远排在首位。

游戏场景

在手游场景下，不同游戏类型对实时音视频的要求不同，比如狼人杀这样的桌游，语音沟通是否顺畅，对游戏体验影响很大，所以对延时要求较高。其它类型游戏具体如下方表格所示。

但满足低延时，并不意味着能满足手游开发的要求。因为手游开发本身存在很多痛点，比如功耗、安装包体积、安全性等。从技术层面讲，将实时音视频与手游结合时，手游开发关注的问题有两类：性能类与体验类。

在将实时音视频与手游结合时，除了延时，更注重包的大小、功耗等。安装包的大小直接影响用户是否安装，而功耗则直接影响游戏体验。

社交直播场景

目前的社交直播产品按照功能类型分有仅支持纯音频社交的，比如荔枝 FM；还有音视频社交的，比如陌陌。这两类场景对实时音视频的要求包括：

直播答题场景

在直播答题场景中，对实时音视频的要求主要有如下两点：

我们以前经常能看到主持人说完一道题，题目却还没发到手机上，最后只剩 3 秒的答题时间，甚至没看到题就已出局。该场景的痛点不是低延时，而是直播音视频与题目的同步，保证所有人公平，有钱分。

K 歌合唱场景

天天 K 歌、唱吧等 K 歌类应用中，都有合唱功能，主流形式是 A 用户上传完整录音，B 用户再进行合唱。实现实时合唱的主要需求有如下几点：

在这个场景中，两人的歌声与音乐三者之间的同步给低延时提出了很高的要求。同时，音质也是关键，如果为了延时而大幅降低音质，就偏离了 K 歌应用的初衷。

金融场景

对于核保、银行开户来讲，需要一对一音视频通话。由于金融业特殊性，该类应用对实时音视频的需求，按照重要性来排序如下：

在这个场景中，低延时不是关键。重要的是，要保证安全性、双录功能和系统平台的兼容。

在线教育

在线教育主要分为两类：非 K12 在线教育，比如技术开发类教学，该场景对实时音视频的要求主要有：

很多非 K12 教学发生在单向直播场景下，所以延时要求并不高。

另一类是 K12 在线教育，比如英语外教、部分兴趣教学，通常会有一对一或一对多的师生连麦功能，它对直播场景的要求包括：

在 K12 的在线教育中，师生的连麦在低延时方面有较高的要求。如果会涉及跨国的英语教学，或需要面向偏远地区学生，那还要考虑海外节点部署、中小运营商网络的支持等。

在线抓娃娃

在线抓娃娃是近期新兴热点，主要依靠实时音视频与线下娃娃机来实现。它对实时音视频的要求包括：

瓶颈与权衡

产品的开发追求极致，需要让延时低到极限。但理想丰满，现实骨感。我们曾在上文提到，延时是因多个阶段的数据处理、传输而产生的。那么就肯定有它触及天花板的时候。

我们大胆假设，要从北京机场传输一路音视频留到上海虹桥机场。我们突破一切物理环境、财力、人力限制，在两地之间搭设了一条笔直的光纤，且保证真空传输（实际上根本不可能）。两地之间距离约为 1061 km。通过计算可知，传输需要约 3.5ms。数据在采集设备与播放设备端需要的采集、编解码处理与播放缓冲延时计为较高的值，30ms。那么端到端的延时大概需要 33.5ms。请注意，我们在这里还忽略了音视频文件本身、系统、光的衰减等因素带来的影响。

所以，所谓“超低延时”也会遇到瓶颈。在任何实验环境下都可以达到很低的延时，但是到实际环境中，要考虑边缘节点的部署、主干网络拥塞、弱网环境、设备性能、系统性能等问题，实际延时会更大。在一定的网络条件限制下，针对不同场景选择低延时方案或技术选型时，就需要围绕延时、卡顿、音频质量、视频清晰度等指标进行权衡与判断。

作者：声网Agora

链接：https://juejin.im/post/6844903601043669000

来源：掘金

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

推荐阅读

less
FinOps 与 Serverless 的结合：破解云成本难题

本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理，提出了首个 Serverless 函数总成本估计模型，并分享了多种有效的成本优化策略。 ... [详细]

蜡笔小新 2024-12-24 12:44:26
php
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
bash
网络链路质量监控：Smokeping部署与配置

本文详细介绍了如何在Linux系统上安装和配置Smokeping，以实现对网络链路质量的实时监控。通过详细的步骤和必要的依赖包安装，确保用户能够顺利完成部署并优化其网络性能监控。 ... [详细]

蜡笔小新 2024-12-27 19:31:05
bash
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39
process
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
process
深入解析TCP/IP五层协议

本文详细介绍了TCP/IP五层协议模型，包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释，帮助读者理解互联网通信的原理。此外，还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]

蜡笔小新 2024-12-24 14:02:48
web
使用 GitHub、JSDelivr、PicGo 和 Typora 构建高效的图床解决方案

本文详细介绍了如何利用 GitHub 仓库、JSDelivr CDN、PicGo 图床工具和 Typora 编辑器，搭建一个高效且免费的图床系统。通过此方案，用户可以轻松管理和上传图片，并在 Markdown 文档中快速插入高质量的图片链接。 ... [详细]

蜡笔小新 2024-12-24 12:54:21
web
C语言中的指针：概念、应用与注意事项

本文详细介绍了C语言中的指针，包括其基本概念、应用场景以及使用时的优缺点。同时，通过实例解析了指针在内存管理、数组操作、函数调用等方面的具体应用，并探讨了指针的安全性问题。 ... [详细]

蜡笔小新 2024-12-24 10:51:59
less
深入解析网络存储技术

本文详细介绍了网络存储技术的基本概念、分类及应用场景。通过分析直连式存储（DAS）、网络附加存储（NAS）和存储区域网络（SAN）的特点，帮助读者理解不同存储方式的优势与局限性。 ... [详细]

蜡笔小新 2024-12-24 10:38:34
less
Valve 发布 Steam Deck 的新版 Windows 驱动程序

Valve 最新发布了针对 Steam Deck 掌机的 Windows 驱动程序，旨在提升其在 Windows 环境下的兼容性、安全性和性能表现。 ... [详细]

蜡笔小新 2024-12-28 10:31:16
main
数据库内核开发入门 | 搭建研发环境的初步指南

本课程将带你从零开始，逐步掌握数据库内核开发的基础知识和实践技能，重点介绍如何搭建OceanBase的开发环境。 ... [详细]

蜡笔小新 2024-12-27 16:38:48
usb
解决微信电脑版无法刷朋友圈问题：使用安卓远程投屏方案

在工作期间想要浏览微信和朋友圈却不太方便？虽然微信电脑版目前不支持直接刷朋友圈，但通过远程投屏技术，可以轻松实现在电脑上操作安卓设备的功能。 ... [详细]

蜡笔小新 2024-12-26 15:23:19
process
高效解决应用崩溃问题！友盟新版错误分析工具全面升级

友盟推出的最新版错误分析工具，专为移动开发者设计，提供强大的Crash收集与分析功能。该工具能够实时监控App运行状态，快速发现并修复错误，显著提升应用的稳定性和用户体验。 ... [详细]

蜡笔小新 2024-12-26 14:11:47
web
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
header
Python 异步编程：ASGI 服务器与框架详解

自 Python 3.5 引入 async/await 语法以来，异步编程迅速崛起，吸引了大量开发者的关注。本文将深入探讨 ASGI（异步服务器网关接口）及其在现代 Python Web 开发中的应用，介绍主流的 ASGI 服务器和框架。 ... [详细]

蜡笔小新 2024-12-24 17:15:09

年轮033

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章