在移动网络、云计算、人工智能等技术发展的驱动下,直播成为当今时代的一个电商新物种。而该领域发展至今,无论是从量级上,还是技术上,作为行业中的佼佼者——淘宝直播,一直以来,都备受技术人的关注。
在阿里文娱2019双11猫晚技术沙龙中,来自淘系技术部高级无线技术专家长孙泰带来了淘宝直播的主题分享,从双11的场景中,看淘宝直播的趋势(强实时互动、内容电商)、淘宝直播电商互动探索(低延时、连麦以及电商营销AI互动)、电商直播未来思考(5G+直播)。
与此同时,长孙泰还基于以下几个角度进行了深度的阐述:
1. 电商直播在双11的表现以及在内容生态里面的定位;
2. 直播互动在淘宝的实践,直播本身是一个特别强互动的场景,本质上就是把线下场景还原到线上的过程;
3. 分享近期的思考,尤其上5G来了之后的一些思考。
作者 | 淘系技术部高级无线技术专家长孙泰
编辑 | 屠敏
以下为演讲实录:
2019年淘宝直播的双11
2019年淘宝直播的表现
从数字来看,直播已经不是一个网红主导的事情,很多的商家特别的天猫品牌商家,都把直播当作日常的运营工具,整体覆盖在双11期间非常高,基本上覆盖头部全部品牌,50%的商家都在使用直播工具来当作营销场景。从行业覆盖来看购物来看,目前也是比较丰富的;另外直播有一个村播的计划,会深入到农村里面,因为现在整个的网络覆盖还是比较好的,村播的原产地的直播,直接带动整体经济的发展。
今年直播在行业场景的覆盖进一步提升,淘宝直播通过开放的方式支持了集团多个业务的直播场景,今年猫晚直播就是通过直播的开放平台支持的。
大家有没有在别的地方看到淘宝直播?比如微博。其实李佳琦的直播间在阿里内部所有平台都会进行联播,李佳琦的微博也有很多的粉丝,可以很方便的将微博的粉丝进行更强的变现,因为淘宝直播是一个变现非常强的平台。作为基础直播平台,我们通过SDK的方式、小程序的方式、覆盖了阿里全系的应用。
内容电商的新形态
回到电商直播,电商直播本质上一个人货场的概念。首先是人,也就是用户和直播,另外是直播这个场,基于视频流的实时互动;这里面包含很多东西,最直接就是发评论问直播什么,直播看到评论就会回复用户,以及主播会给用户发送他的权益。另外是货,直播商品中心,我们把基于淘宝大盘进行选品,整合供应链,其实大家也发现譬如李佳琦、薇娅的直播间,抢到就是赚到,这是商品力强体现的一个点。
淘宝直播电商互动探索:低延时、连麦以及电商营销AI互动
淘宝直播业务架构
在淘宝直播整体的业务架构图中。首先需要明确主播怎么进来,其中重点是机构怎么进来的,商家怎么进来,另外是商品中心,也就是怎么样做好选品,把好的品类选出来,商家卖自己的货,但是如果是网红,就需要连接商家和主播;中控台是开播工具以及直播场的管理工具,包括PC移动的推流工具和管理公里。
中间是直播平台,也是直播的核心能力。其中直播开放平台是我们把直播的互动,直播SDK开放出去,包括这次猫晚互动落地在手淘等。另外是直播的稳定性,这个很重要,卡顿,成功率、秒开率、稳定性问题排查等,比如说天津某个节点出问题了,能够快速定位出来,并解决。质量平台是我们对直播业务和技术的监控平台。
上层是分发,增长很重要,我们有一套基于数据驱动增长平台,能够高效迭代,另外还有流量调控,能够针对主播进行流量激励,这些对一些商家特别重要。内容分发一个是搜索、一个是推荐,特别是直播场景,和原先视频、图文,商品搜索推荐不一样,给我们提出了新的挑战。
直播技术架构
对于淘宝直播的技术架构,底层是基于阿里直播云搭建,推流上行,CDN分发,用户通过边缘拉流,大多数直播都是类似的架构。可能业内很多都是基于多运营商的融合方案,我们和阿里云深度结合,在全链路上可以做更强的优化,这块后续也会提到。中间一层左侧是生产平台,包括全端推流工具,中间就是基于互动通道构建的直播各种互动权益玩法;直播间我们也定义两层,播放器和互动层,互动玩法开放是基于互动层实现的,提供直播间的互动数据能力以及玩法组件,各个场景可以深度定制,目前我们在集团内开放了,未来希望能够有机会走到行业里面去的。
基础营销互动权益
营销互动玩法,其实我们现在互动比这个图更复杂,现在的玩法都是基于任务型的和游戏型的,做一个主播简单的任务,才能拿到。
比如猫晚参与红队PK,我赢了就抽奖,没赢就不抽奖,这里面就是淘宝直播里提供一套基于任务行为驱动的互动营销权益玩法。基础是亲密度,如何发的有效率。所以我们定义直播亲密度的玩法是基于主播和用户的,比如某用户是薇娅的一个挚爱粉,但是到李佳琦可能就是一个新粉,更多是强调用户跟主播的关联。用户怎么涨分,核心也是和主播互动,比在这里直播间下单、经常回来、观看时间、发评论互动等。基于亲密度分数就可以灵活的调控运营策略,譬如排位赛等。主播也能做到差异化运营。是平台发现新的主播的很重要的场景,配置不同的赛道,从不同的赛道里筛选出不同新的有潜力的主播。
端智能互动实践
首先是互动通道,能够以秒级的速度推动到每个人的前面。一般有两种模式,基于房间消息和流SEI。本质上SEI能够做到很好的音画同步的体验,这块在和内容联动的时候,比较重要。
另外一个端媒体智能基础能力,MNN是淘系的开源推理引擎,这个性能非常高,也就是目前在端侧AI处理,门槛已经很低了。在端智能都做了比较深入的探索。比如今年手淘信息流端的推荐系统,实时感知用户的行为在反馈给算法,提升也非常好。
比如笑脸红包的玩法,是去年猫晚现场的玩法,两个明星在玩笑脸进行PK;端侧匹配用户的表情,对的话就加1分,错的话就没有分,这是在猫晚做的一个尝试,效果也都非常好。
另外一块是如何生产玩法,因为不可能每一个玩法都单独开发。我们有一个多媒体的素材编辑平台。从工程角度,端侧集合采集、推理、渲染并编码,目前是算力是没问题的。
另外算法在人脸识别,手势识别,表情识别、pose识别等,也都比较成熟。基于一套跨平台的渲染脚本,就可以实现在各个平台渲染玩法。比如说这个玩法,在直播间的树会长高,长得更高的话,可能就一个红包出来。我们可以通过玩法编排能够定义点赞、或者评论触发树的状态,并在某个状态下达到出发一个红包的效果。这样就可以做到很快速的上线一些比较好玩的玩法了。
淘宝直播在低延时的尝试
我们的直播多样性差异很大,有大有小,李佳琦和薇娅直播间人就很多,但更多腰部和尾部其实没那么大,整体的丰富度会非常多。比如一场发布会来讲可能30秒延时OK的,但是对于电商互动来说,实时的互动就很重要了。我们也非常关注中小主播的体验。
拆解直播整体延时的链路,主播通过手机推流,采集画面(还包括渲染的前处理),然后编码,封包,发送到推流缓冲区,最后推到云上。用户拉流播放侧可能需要做后处理,最后渲染出来。整个流程里来看的话,延时大概是7秒,基于常规的TCP的协议的直播,基本上都是这个延时,核心是TCP协议里面,保障基础的不卡必须需要大约3-5的缓冲。这点是由复杂的网络场景限定的。
低延时怎么优化呢?关键是播放缓存区,如何去做拥塞控制的问题,理论上来做基于RTP的协议,如果网络非常好,理论上是可以做1秒内的延时,所以第一步我们基于FLV-TCP的协议换成的RTP,RTP是基于UDP的流媒体传输协议,在流媒体场景下适配性会更好。
如何确保播得更流畅,拥塞控制就显得很重要了。WebRTC在拥塞控制有很好的实现,我们做了很多改造,并将部分功能移植到我们的系统里面去。netEQ是webrtc里面音频处理和控制一个非常核心的模块。看直播对于抖动的体验,对声音的敏感可能比图像更强烈;因此我们在边缘实现了类似webrtc的拥塞控制算法,包含FEC、netEQ等,根据端上用户网络情况,决定下行的策略,以及控制是否要丢帧等。最后我们在卡顿率不变等前提下,降低到了1.5秒的延时。以前问主播一个问题,可能7秒钟才能听到回复,而现在可能2秒钟就回复了,这个对互动率有一个很大的提升。
另外就是连麦,譬如两个直播PK,这里有很多不同的实现方式,就合流的方式来看,有端侧和云侧的,各有优点。
我们是基于端上合流的,因为主播生产侧手机还是蛮好的,同时在端上对整体的码率控制,画面控制也会更加灵活。第二点是连麦跟直播的融合,一般情况下,发起连麦的时候,直播大多数会中断掉,切换到另外一个分发体系里面,从传统的flv协议切换到通话的协议。这里面会导致用户画面有一些变化。我们实现了主播和连麦一体化的技术,就可以做到无缝切换的体验。可以理解成一个大型的会议场景,所有人都是以连麦的方式来接入直播的,对于和主播,都是通过级联的proxy。对于连麦而言,就是将连麦者之间的画面做一次分发,直接把这个流跟主播合流,这对用户和主播均是无感的,有点类似于视频会议,这个也是我们在直播场景特别是超低延时直播的一个探索。
刚才提到分发体系,目前整个主流直播的技术,大体都是基于CDN的,CDN的分发体系,更多适配于图片和视频,边缘回源中心,一级一级上溯,这个其实对直播不一定适合,特别有大量冷流直播,会导致每一个用户的这个回源都会回到中心去,就会对不同层次节点造成非常大的压力。这里去中心化的分发模式就起到作用了,尤其的5G来了之后,大码率的传输就可以本地卸载,用户在上海,另外用户在杭州,上海的用户直接去拉杭州的节点,整体分发效率就会更高。
直播内容理解
直播主要由两部分组成,一个是你看到的是什么,第二你跟主播在互动。譬如用户要问主播,衣服怎么样,是否有折扣,是否再讲一下8号的宝贝,这类用户评论里是非常普遍的,但实际上对于大的主播来说是来不及回复每一个用户的。因此我们做了一个自动回复的助手,效果非常好,用户在评论的表达,多数意图是蛮明显的,比如说像8号宝贝,那可能重新再讲一下,直播助手就可以识别出来,然后就刚才讲过的片段推送给用户。帮助了主播提升用户的运营效率,整体的购买转化率也提升3%。其实不仅仅智能回复,也包括打招呼等等功能,本质上就是用AI的方式提升主播如何接客的能力。
另外一个是商品识别,直播的分发其实和传统意义的图文不太一样,图文比较好理解,因为有文字,能分析这篇内容讲的是什么,短视频的也能做一些深度的语义理解,结合标题标签已经用户行为,也做很好的分发。
直播不太一样,实时性更强,技术挑战更大。电商直播的特点就是讲解商品,商品的内容构成了互动的核心,用户也是大多数是来买商品的。我们今年在直播的内容理解做很多的事情,其中一块是商品识别。比如我们的直播看点功能,在直播时间轴某个点在讲什么,比如说这个点在讲这个衣服,用户就可以快速的在直播间跳转到他想看的东西,提升用户的体验;同时结构化的内容也能更好分发直播,这个比较容易理解,之前大多数是基于人到主播的匹配,现在能做到人到商品的匹配,这个是对直播的分发非常的重要,也是一个很大的飞跃。
具体实现本质上就是一个商品检索的过程,直播间有一个宝贝口袋,也就是这场直播的讲解的商品,其实只要在口袋里少数商品去检索匹配就好了。因此当直播发一个商品的时候,我们会将商品主图保存在客户端里,识别的时候,会把当前直播的图片截取出来,先抠人再分割然后匹配。不过也不能解决所有问题,比如珠宝,或者其他奇怪很难识别的商品,再比如拿到手上,有遮挡等,这里面挑战很大,因此我们也尝试考虑引入ASR,尝试进一步理解讲的东西是什么,进一步结构化理解当前直播的内容。
5G+直播AI,电商直播未来思考
5G的特性,对于直播多媒体来说,低延时和大带宽是最直接的,广连接可能会对IOT的作用比较大。2019年年初我们和中国电信有一次联动,尝试一下5G直播对于互动直播体验。年初5G还没有现在那么普及,所以今年跟电信的合作就是在淘宝直播里做一个高清观看并普惠到目前的大多数用户。考虑到当前4G手机下如何才能更好的展现5G高清画面,比如4K,所以我们实现了一个可以支持4K播放同时能够支持放大缩小的直播间,日常的用户手机实现高清的观看,实现细节的放大观看,我们在美妆产品做了测试,能够很清晰的看到主播讲解的细节,体验也很好。
另外,5G对于AI的应用,其中一块就是直播的内容理解和渲染。5G边缘计算能够提供较大的算力,对于直播的理解和渲染,一部分的计算能力做到云上去,理论上是边缘到端5-20毫秒的延时,刚好是一个观看帧的时延,有机会实现更强的直播交互体验,包括在直播里实现个性化,类似游戏的玩法都是有可能的。而这些基于边缘的基站都可以实现,比如你在杭州银泰逛街,可能看到的和别人不一样,你会从银泰的边缘重新渲染银泰相关的内容,也许包含银泰的广告。这个未来5G都是有可能的。
(*本文为AI科技大本营转载文章,转载请联系原作者)
◆
精彩推荐
◆
推荐阅读
提高建模效率,改变手工作坊式生产,AutoML的技术研究与应用进展如何了?
2019年上万篇论文发表,这14篇备受瞩目的论文,你都了解吗?
迁移学习前沿研究亟需新鲜血液,深度学习理论不能掉链子
详解 TCP 连接的“ 三次握手 ”与“ 四次挥手 ”
抗住 60 亿次攻击,起底阿里云安全的演进之路 | 问底中国 IT 技术演进
把自己朝九晚五的工作自动化了,有错吗?
什么是数字孪生?
我被裁掉的那一天
这三名男子靠开加密矿池获得7.22 亿美元,却不兑现收益拿去奢侈挥霍……
你点的每个“在看”,我都认真当成了AI