作者:Mr尘世美_925 | 来源:互联网 | 2023-06-02 04:33
上篇文章《知识蒸馏在广告系统中的应用(一)》主要和大家聊的是一些基本的背景,今天我们将重点看看在实战中知识蒸馏是如何在广告系统的各个阶段发挥作用的。1.在召回粗排阶
上篇文章《知识蒸馏在广告系统中的应用(一)》主要和大家聊的是一些基本的背景,今天我们将重点看看在实战中知识蒸馏是如何在广告系统的各个阶段发挥作用的。
1.在召回/粗排阶段使用知识蒸馏
在上一篇文章中我们也谈到,召回和粗排阶段的主要任务是在保证一定精确性的前提下,对广告进行粗筛,缓解精排的压力。需要在准确性和速度方面找到一个平衡点,所以,在这两个阶段,我们并不需要追求最高的精度,就算模型的效果和精排有一定的差距,也是完全可以接受的。毕竟在这两个阶段,如果准确性不足还是可以通过返回物品的数量多来弥补的。而模型小速度快则是这两个阶段的重要目标之一。这就刚好和知识蒸馏本身的特点相一致,所以在这里使用知识蒸馏应该是再好不过的了。
那么,召回或者粗排怎么要怎么“蒸馏”呢?如上图所示,我们采用复杂的精排模型作为Teacher,召回或粗排模型作为小的Student,比如双塔DNN模型等,Student模型去拟合精排环节的排序结果,以此来指导召回或粗排Student模型的优化过程。这样,我们可以获得满足如下特性的召回或者粗排模型:
(1) 首先,精度好,因为Student经过复杂精排模型的知识蒸馏,效果可以非常接近于精排模型效果。
(2) 其次,Student模型结构简单,所以速度快,满足召回、粗排阶段对于速度的要求。
(3)最后,通过Student模型模拟精排模型的排序结果,可以使得召回、粗排这两个阶段的优化目标和精排环节的优化目标保持一致,即与广告系统的最终优化目标保持一致。
在广告系统中,召回、粗排阶段的优化目标保持和精排优化目标一致,其实是很重要的,但是这点往往在实际中容易被忽略,或者因为条件所限无法考虑这一因素,比如非模型召回,从机制上是没办法考虑这点的。这里需要注意的一点是:如果召回模型或者粗排模型的优化目标已经是多目标的,对于新增的模型蒸馏来说,可以作为多目标任务中新加入的一个目标,当然,也可以只保留单独的蒸馏模型,完全替换掉之前的多目标模型,这两种思路都是可以的,需要结合具体情况具体分析。
2.在精排阶段使用知识蒸馏
为什么要在精排阶段采用知识蒸馏?我们知道,精排环节注重精准排序,所以采用尽量多的特征和复杂模型,以期待获得优质的个性化推荐结果。但是,这同时也意味着复杂模型的在线服务响应变慢。若承载相同的流量,需要增加在线服务并行程度,也就意味着增加机器资源和成本。因此,如何在精准排序和机器资源之间做均衡呢?我们可以通过在精排环节采用知识蒸馏技术实现一个既有较好的推荐质量,又能有快速推理能力的模型。
上图展示了如何在精排环节应用知识蒸馏:我们在离线训练的时候,可以训练一个及其复杂精排模型作为Teacher(可以引入transformer、capsule network等复杂结构),一个结构较简单的DNN排序模型作为Student。因为Student结构简单,所以模型表达能力弱,于是,我们可以在Student训练的时候,除了采用常规的Ground Truth训练数据外,Teacher也辅助Student的训练,将Teacher复杂模型学到的一些知识迁移给Student,增强其模型表达能力,以此加强其推荐效果。在模型上线服务的时候,并不用那个复杂的Teacher模型,而是使用小的Student作为线上精排模型,进行在线推理。小的Student模型优势如下:
(1) Student结构较为简单,所以在线推理速度会大大快于复杂模型
(2) Teacher模型将一些知识迁移给了Student模型,所以经过知识蒸馏的Student模型推荐质量也比单纯的Student模型质量高。
3.小结
本文给出了知识蒸馏在广告系统的召回、粗排以及精排阶段的使用姿势。希望能带给大家一些新的思考。
欢迎大家关注计算广告那些事儿哈,除了原创文章之外,也会不定期和大家分享业内大牛的文章哈!