热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

详解淘宝直播背后的技术

在移动网络、云计算、人工智能等技术发展的驱动下,直播成为当今时代的一个电商新物种。而该领域发展至今,无论是从量级上,还是技术上࿰

在移动网络、云计算、人工智能等技术发展的驱动下,直播成为当今时代的一个电商新物种。而该领域发展至今,无论是从量级上,还是技术上,作为行业中的佼佼者——淘宝直播,一直以来,都备受技术人的关注。

在阿里文娱2019双11猫晚技术沙龙中,来自淘系技术部高级无线技术专家长孙泰带来了淘宝直播的主题分享,从双11的场景中,看淘宝直播的趋势(强实时互动、内容电商)、淘宝直播电商互动探索(低延时、连麦以及电商营销AI互动)、电商直播未来思考(5G+直播)。

与此同时,长孙泰还基于以下几个角度进行了深度的阐述:

   1. 电商直播在双11的表现以及在内容生态里面的定位;

   2. 直播互动在淘宝的实践,直播本身是一个特别强互动的场景,本质上就是把线下场景还原到线上的过程;

   3. 分享近期的思考,尤其上5G来了之后的一些思考。

作者 | 淘系技术部高级无线技术专家长孙泰

编辑 | 屠敏

以下为演讲实录:

2019年淘宝直播的双11

2019年淘宝直播的表现

从数字来看,直播已经不是一个网红主导的事情,很多的商家特别的天猫品牌商家,都把直播当作日常的运营工具,整体覆盖在双11期间非常高,基本上覆盖头部全部品牌,50%的商家都在使用直播工具来当作营销场景。从行业覆盖来看购物来看,目前也是比较丰富的;另外直播有一个村播的计划,会深入到农村里面,因为现在整个的网络覆盖还是比较好的,村播的原产地的直播,直接带动整体经济的发展。

今年直播在行业场景的覆盖进一步提升,淘宝直播通过开放的方式支持了集团多个业务的直播场景,今年猫晚直播就是通过直播的开放平台支持的。

大家有没有在别的地方看到淘宝直播?比如微博。其实李佳琦的直播间在阿里内部所有平台都会进行联播,李佳琦的微博也有很多的粉丝,可以很方便的将微博的粉丝进行更强的变现,因为淘宝直播是一个变现非常强的平台。作为基础直播平台,我们通过SDK的方式、小程序的方式、覆盖了阿里全系的应用。

内容电商的新形态

回到电商直播,电商直播本质上一个人货场的概念。首先是人,也就是用户和直播,另外是直播这个场,基于视频流的实时互动;这里面包含很多东西,最直接就是发评论问直播什么,直播看到评论就会回复用户,以及主播会给用户发送他的权益。另外是货,直播商品中心,我们把基于淘宝大盘进行选品,整合供应链,其实大家也发现譬如李佳琦、薇娅的直播间,抢到就是赚到,这是商品力强体现的一个点。

淘宝直播电商互动探索:低延时、连麦以及电商营销AI互动

淘宝直播业务架构

在淘宝直播整体的业务架构图中。首先需要明确主播怎么进来,其中重点是机构怎么进来的,商家怎么进来,另外是商品中心,也就是怎么样做好选品,把好的品类选出来,商家卖自己的货,但是如果是网红,就需要连接商家和主播;中控台是开播工具以及直播场的管理工具,包括PC移动的推流工具和管理公里。

中间是直播平台,也是直播的核心能力。其中直播开放平台是我们把直播的互动,直播SDK开放出去,包括这次猫晚互动落地在手淘等。另外是直播的稳定性,这个很重要,卡顿,成功率、秒开率、稳定性问题排查等,比如说天津某个节点出问题了,能够快速定位出来,并解决。质量平台是我们对直播业务和技术的监控平台。

上层是分发,增长很重要,我们有一套基于数据驱动增长平台,能够高效迭代,另外还有流量调控,能够针对主播进行流量激励,这些对一些商家特别重要。内容分发一个是搜索、一个是推荐,特别是直播场景,和原先视频、图文,商品搜索推荐不一样,给我们提出了新的挑战。

直播技术架构

对于淘宝直播的技术架构,底层是基于阿里直播云搭建,推流上行,CDN分发,用户通过边缘拉流,大多数直播都是类似的架构。可能业内很多都是基于多运营商的融合方案,我们和阿里云深度结合,在全链路上可以做更强的优化,这块后续也会提到。中间一层左侧是生产平台,包括全端推流工具,中间就是基于互动通道构建的直播各种互动权益玩法;直播间我们也定义两层,播放器和互动层,互动玩法开放是基于互动层实现的,提供直播间的互动数据能力以及玩法组件,各个场景可以深度定制,目前我们在集团内开放了,未来希望能够有机会走到行业里面去的。

基础营销互动权益

营销互动玩法,其实我们现在互动比这个图更复杂,现在的玩法都是基于任务型的和游戏型的,做一个主播简单的任务,才能拿到。

比如猫晚参与红队PK,我赢了就抽奖,没赢就不抽奖,这里面就是淘宝直播里提供一套基于任务行为驱动的互动营销权益玩法。基础是亲密度,如何发的有效率。所以我们定义直播亲密度的玩法是基于主播和用户的,比如某用户是薇娅的一个挚爱粉,但是到李佳琦可能就是一个新粉,更多是强调用户跟主播的关联。用户怎么涨分,核心也是和主播互动,比在这里直播间下单、经常回来、观看时间、发评论互动等。基于亲密度分数就可以灵活的调控运营策略,譬如排位赛等。主播也能做到差异化运营。是平台发现新的主播的很重要的场景,配置不同的赛道,从不同的赛道里筛选出不同新的有潜力的主播。

端智能互动实践

首先是互动通道,能够以秒级的速度推动到每个人的前面。一般有两种模式,基于房间消息和流SEI。本质上SEI能够做到很好的音画同步的体验,这块在和内容联动的时候,比较重要。

另外一个端媒体智能基础能力,MNN是淘系的开源推理引擎,这个性能非常高,也就是目前在端侧AI处理,门槛已经很低了。在端智能都做了比较深入的探索。比如今年手淘信息流端的推荐系统,实时感知用户的行为在反馈给算法,提升也非常好。

比如笑脸红包的玩法,是去年猫晚现场的玩法,两个明星在玩笑脸进行PK;端侧匹配用户的表情,对的话就加1分,错的话就没有分,这是在猫晚做的一个尝试,效果也都非常好。

另外一块是如何生产玩法,因为不可能每一个玩法都单独开发。我们有一个多媒体的素材编辑平台。从工程角度,端侧集合采集、推理、渲染并编码,目前是算力是没问题的。

另外算法在人脸识别,手势识别,表情识别、pose识别等,也都比较成熟。基于一套跨平台的渲染脚本,就可以实现在各个平台渲染玩法。比如说这个玩法,在直播间的树会长高,长得更高的话,可能就一个红包出来。我们可以通过玩法编排能够定义点赞、或者评论触发树的状态,并在某个状态下达到出发一个红包的效果。这样就可以做到很快速的上线一些比较好玩的玩法了。 

淘宝直播在低延时的尝试

我们的直播多样性差异很大,有大有小,李佳琦和薇娅直播间人就很多,但更多腰部和尾部其实没那么大,整体的丰富度会非常多。比如一场发布会来讲可能30秒延时OK的,但是对于电商互动来说,实时的互动就很重要了。我们也非常关注中小主播的体验。

拆解直播整体延时的链路,主播通过手机推流,采集画面(还包括渲染的前处理),然后编码,封包,发送到推流缓冲区,最后推到云上。用户拉流播放侧可能需要做后处理,最后渲染出来。整个流程里来看的话,延时大概是7秒,基于常规的TCP的协议的直播,基本上都是这个延时,核心是TCP协议里面,保障基础的不卡必须需要大约3-5的缓冲。这点是由复杂的网络场景限定的。

低延时怎么优化呢?关键是播放缓存区,如何去做拥塞控制的问题,理论上来做基于RTP的协议,如果网络非常好,理论上是可以做1秒内的延时,所以第一步我们基于FLV-TCP的协议换成的RTP,RTP是基于UDP的流媒体传输协议,在流媒体场景下适配性会更好。

如何确保播得更流畅,拥塞控制就显得很重要了。WebRTC在拥塞控制有很好的实现,我们做了很多改造,并将部分功能移植到我们的系统里面去。netEQ是webrtc里面音频处理和控制一个非常核心的模块。看直播对于抖动的体验,对声音的敏感可能比图像更强烈;因此我们在边缘实现了类似webrtc的拥塞控制算法,包含FEC、netEQ等,根据端上用户网络情况,决定下行的策略,以及控制是否要丢帧等。最后我们在卡顿率不变等前提下,降低到了1.5秒的延时。以前问主播一个问题,可能7秒钟才能听到回复,而现在可能2秒钟就回复了,这个对互动率有一个很大的提升。

另外就是连麦,譬如两个直播PK,这里有很多不同的实现方式,就合流的方式来看,有端侧和云侧的,各有优点。

我们是基于端上合流的,因为主播生产侧手机还是蛮好的,同时在端上对整体的码率控制,画面控制也会更加灵活。第二点是连麦跟直播的融合,一般情况下,发起连麦的时候,直播大多数会中断掉,切换到另外一个分发体系里面,从传统的flv协议切换到通话的协议。这里面会导致用户画面有一些变化。我们实现了主播和连麦一体化的技术,就可以做到无缝切换的体验。可以理解成一个大型的会议场景,所有人都是以连麦的方式来接入直播的,对于和主播,都是通过级联的proxy。对于连麦而言,就是将连麦者之间的画面做一次分发,直接把这个流跟主播合流,这对用户和主播均是无感的,有点类似于视频会议,这个也是我们在直播场景特别是超低延时直播的一个探索。

刚才提到分发体系,目前整个主流直播的技术,大体都是基于CDN的,CDN的分发体系,更多适配于图片和视频,边缘回源中心,一级一级上溯,这个其实对直播不一定适合,特别有大量冷流直播,会导致每一个用户的这个回源都会回到中心去,就会对不同层次节点造成非常大的压力。这里去中心化的分发模式就起到作用了,尤其的5G来了之后,大码率的传输就可以本地卸载,用户在上海,另外用户在杭州,上海的用户直接去拉杭州的节点,整体分发效率就会更高。

直播内容理解

直播主要由两部分组成,一个是你看到的是什么,第二你跟主播在互动。譬如用户要问主播,衣服怎么样,是否有折扣,是否再讲一下8号的宝贝,这类用户评论里是非常普遍的,但实际上对于大的主播来说是来不及回复每一个用户的。因此我们做了一个自动回复的助手,效果非常好,用户在评论的表达,多数意图是蛮明显的,比如说像8号宝贝,那可能重新再讲一下,直播助手就可以识别出来,然后就刚才讲过的片段推送给用户。帮助了主播提升用户的运营效率,整体的购买转化率也提升3%。其实不仅仅智能回复,也包括打招呼等等功能,本质上就是用AI的方式提升主播如何接客的能力。

另外一个是商品识别,直播的分发其实和传统意义的图文不太一样,图文比较好理解,因为有文字,能分析这篇内容讲的是什么,短视频的也能做一些深度的语义理解,结合标题标签已经用户行为,也做很好的分发。

直播不太一样,实时性更强,技术挑战更大。电商直播的特点就是讲解商品,商品的内容构成了互动的核心,用户也是大多数是来买商品的。我们今年在直播的内容理解做很多的事情,其中一块是商品识别。比如我们的直播看点功能,在直播时间轴某个点在讲什么,比如说这个点在讲这个衣服,用户就可以快速的在直播间跳转到他想看的东西,提升用户的体验;同时结构化的内容也能更好分发直播,这个比较容易理解,之前大多数是基于人到主播的匹配,现在能做到人到商品的匹配,这个是对直播的分发非常的重要,也是一个很大的飞跃。

具体实现本质上就是一个商品检索的过程,直播间有一个宝贝口袋,也就是这场直播的讲解的商品,其实只要在口袋里少数商品去检索匹配就好了。因此当直播发一个商品的时候,我们会将商品主图保存在客户端里,识别的时候,会把当前直播的图片截取出来,先抠人再分割然后匹配。不过也不能解决所有问题,比如珠宝,或者其他奇怪很难识别的商品,再比如拿到手上,有遮挡等,这里面挑战很大,因此我们也尝试考虑引入ASR,尝试进一步理解讲的东西是什么,进一步结构化理解当前直播的内容。

5G+直播AI,电商直播未来思考

5G的特性,对于直播多媒体来说,低延时和大带宽是最直接的,广连接可能会对IOT的作用比较大。2019年年初我们和中国电信有一次联动,尝试一下5G直播对于互动直播体验。年初5G还没有现在那么普及,所以今年跟电信的合作就是在淘宝直播里做一个高清观看并普惠到目前的大多数用户。考虑到当前4G手机下如何才能更好的展现5G高清画面,比如4K,所以我们实现了一个可以支持4K播放同时能够支持放大缩小的直播间,日常的用户手机实现高清的观看,实现细节的放大观看,我们在美妆产品做了测试,能够很清晰的看到主播讲解的细节,体验也很好。

另外,5G对于AI的应用,其中一块就是直播的内容理解和渲染。5G边缘计算能够提供较大的算力,对于直播的理解和渲染,一部分的计算能力做到云上去,理论上是边缘到端5-20毫秒的延时,刚好是一个观看帧的时延,有机会实现更强的直播交互体验,包括在直播里实现个性化,类似游戏的玩法都是有可能的。而这些基于边缘的基站都可以实现,比如你在杭州银泰逛街,可能看到的和别人不一样,你会从银泰的边缘重新渲染银泰相关的内容,也许包含银泰的广告。这个未来5G都是有可能的。

(*本文为AI科技大本营转载文章,转载请联系原作者)

精彩推荐

推荐阅读

  • 提高建模效率,改变手工作坊式生产,AutoML的技术研究与应用进展如何了?

  • 2019年上万篇论文发表,这14篇备受瞩目的论文,你都了解吗?

  • 迁移学习前沿研究亟需新鲜血液,深度学习理论不能掉链子

  • 详解 TCP 连接的“ 三次握手 ”与“ 四次挥手 ”

  • 抗住 60 亿次攻击,起底阿里云安全的演进之路 | 问底中国 IT 技术演进

  • 把自己朝九晚五的工作自动化了,有错吗?

  • 什么是数字孪生?

  • 我被裁掉的那一天

  • 这三名男子靠开加密矿池获得7.22 亿美元,却不兑现收益拿去奢侈挥霍……

  • 你点的每个“在看”,我都认真当成了AI



推荐阅读
  • 阿里巴巴终面技术挑战:如何利用 UDP 实现 TCP 功能?
    在阿里巴巴的技术面试中,技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想,因此事后进行了详细总结。通过与总监的进一步交流,了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解,以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]
  • OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战
    OpenAI首席执行官Sam Altman展望:人工智能的未来发展方向与挑战 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 当前,众多初创企业对全栈工程师的需求日益增长,但市场中却存在大量所谓的“伪全栈工程师”,尤其是那些仅掌握了Node.js技能的前端开发人员。本文旨在深入探讨全栈工程师在现代技术生态中的真实角色与价值,澄清对这一角色的误解,并强调真正的全栈工程师应具备全面的技术栈和综合解决问题的能力。 ... [详细]
  • 修复一个 Bug 竟耗时两天?真的有那么复杂吗?
    修复一个 Bug 竟然耗费了两天时间?这背后究竟隐藏着怎样的复杂性?本文将深入探讨这个看似简单的 Bug 为何会如此棘手,从代码层面剖析问题根源,并分享解决过程中遇到的技术挑战和心得。 ... [详细]
  • PyQt5 QTextEdit:深入解析Python中多功能GUI库的应用与实现
    本文详细探讨了 PyQt5 中 QTextEdit 组件在 Python 多功能 GUI 库中的应用与实现。PyQt5 是 Qt 框架的 Python 绑定,提供了超过 620 个类和 6000 个函数及方法,广泛应用于跨平台应用程序开发。QTextEdit 作为其中的重要组件,支持丰富的文本编辑功能,如富文本格式、文本高亮和自定义样式等。PyQt5 的流行性不仅在于其强大的功能,还在于其易用性和灵活性,使其成为开发复杂用户界面的理想选择。 ... [详细]
  • 网站访问全流程解析
    本文详细介绍了从用户在浏览器中输入一个域名(如www.yy.com)到页面完全展示的整个过程,包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]
  • 从0到1搭建大数据平台
    从0到1搭建大数据平台 ... [详细]
  • 在2019中国国际智能产业博览会上,百度董事长兼CEO李彦宏强调,人工智能应务实推进其在各行业的应用。随后,在“ABC SUMMIT 2019百度云智峰会”上,百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]
  • 如何撰写PHP电商项目的实战经验? ... [详细]
  • 深入解析Tomcat:开发者的实用指南
    深入解析Tomcat:开发者的实用指南 ... [详细]
  • 深入解析OSI七层架构与TCP/IP协议体系
    本文详细探讨了OSI七层模型(Open System Interconnection,开放系统互连)及其与TCP/IP协议体系的关系。OSI模型将网络通信过程划分为七个层次,每个层次负责不同的功能,从物理层到应用层逐步实现数据传输和处理。通过对比分析,本文揭示了OSI模型与TCP/IP协议在结构和功能上的异同,为理解现代网络通信提供了全面的视角。 ... [详细]
  • 腾讯优图技术突破,人脸识别准确率跃升至99.80%新高
    近日,腾讯优图实验室在国际知名的人脸识别基准测试LFW中取得重大突破,其在无约束条件下的人脸验证测试中,准确率达到了前所未有的99.80%。这一成就标志着人脸识别技术在复杂环境下的应用迈上了新台阶,为未来的智能安防、身份认证等领域提供了强有力的技术支持。 ... [详细]
  • 面部识别技术面临关键转折点:伦理与应用的平衡挑战
    面部识别技术正面临一个关键的转折点,其伦理与应用之间的平衡问题日益凸显。近日,该技术再次遭遇重大事件。本周二,由90个倡议组织组成的联盟发布了一份联合声明,呼吁全球范围内暂停使用面部识别技术,直到制定出明确的监管框架。这一举措反映了社会各界对隐私保护和技术滥用的担忧,同时也引发了关于如何在保障公共安全和维护个人隐私之间找到合理平衡的广泛讨论。 ... [详细]
  • 如何使用专业软件打开和编辑PHP电影文件?
    如何使用专业软件打开和编辑PHP电影文件? ... [详细]
author-avatar
seaknkoo_776
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有