热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

知识蒸馏在广告系统中的应用(二)

上篇文章《知识蒸馏在广告系统中的应用(一)》主要和大家聊的是一些基本的背景,今天我们将重点看看在实战中知识蒸馏是如何在广告系统的各个阶段发挥作用的。1.在召回粗排阶

上篇文章《知识蒸馏在广告系统中的应用(一)》主要和大家聊的是一些基本的背景,今天我们将重点看看在实战中知识蒸馏是如何在广告系统的各个阶段发挥作用的。

1.在召回/粗排阶段使用知识蒸馏

在上一篇文章中我们也谈到,召回和粗排阶段的主要任务是在保证一定精确性的前提下,对广告进行粗筛,缓解精排的压力。需要在准确性和速度方面找到一个平衡点,所以,在这两个阶段,我们并不需要追求最高的精度,就算模型的效果和精排有一定的差距,也是完全可以接受的。毕竟在这两个阶段,如果准确性不足还是可以通过返回物品的数量多来弥补的。而模型小速度快则是这两个阶段的重要目标之一。这就刚好和知识蒸馏本身的特点相一致,所以在这里使用知识蒸馏应该是再好不过的了。

在这里插入图片描述

那么,召回或者粗排怎么要怎么“蒸馏”呢?如上图所示,我们采用复杂的精排模型作为Teacher,召回或粗排模型作为小的Student,比如双塔DNN模型等,Student模型去拟合精排环节的排序结果,以此来指导召回或粗排Student模型的优化过程。这样,我们可以获得满足如下特性的召回或者粗排模型:

(1) 首先,精度好,因为Student经过复杂精排模型的知识蒸馏,效果可以非常接近于精排模型效果。

(2) 其次,Student模型结构简单,所以速度快,满足召回、粗排阶段对于速度的要求。

(3)最后,通过Student模型模拟精排模型的排序结果,可以使得召回、粗排这两个阶段的优化目标和精排环节的优化目标保持一致,即与广告系统的最终优化目标保持一致。

在广告系统中,召回、粗排阶段的优化目标保持和精排优化目标一致,其实是很重要的,但是这点往往在实际中容易被忽略,或者因为条件所限无法考虑这一因素,比如非模型召回,从机制上是没办法考虑这点的。这里需要注意的一点是:如果召回模型或者粗排模型的优化目标已经是多目标的,对于新增的模型蒸馏来说,可以作为多目标任务中新加入的一个目标,当然,也可以只保留单独的蒸馏模型,完全替换掉之前的多目标模型,这两种思路都是可以的,需要结合具体情况具体分析。

2.在精排阶段使用知识蒸馏

为什么要在精排阶段采用知识蒸馏?我们知道,精排环节注重精准排序,所以采用尽量多的特征和复杂模型,以期待获得优质的个性化推荐结果。但是,这同时也意味着复杂模型的在线服务响应变慢。若承载相同的流量,需要增加在线服务并行程度,也就意味着增加机器资源和成本。因此,如何在精准排序和机器资源之间做均衡呢?我们可以通过在精排环节采用知识蒸馏技术实现一个既有较好的推荐质量,又能有快速推理能力的模型。

在这里插入图片描述

上图展示了如何在精排环节应用知识蒸馏:我们在离线训练的时候,可以训练一个及其复杂精排模型作为Teacher(可以引入transformer、capsule network等复杂结构),一个结构较简单的DNN排序模型作为Student。因为Student结构简单,所以模型表达能力弱,于是,我们可以在Student训练的时候,除了采用常规的Ground Truth训练数据外,Teacher也辅助Student的训练,将Teacher复杂模型学到的一些知识迁移给Student,增强其模型表达能力,以此加强其推荐效果。在模型上线服务的时候,并不用那个复杂的Teacher模型,而是使用小的Student作为线上精排模型,进行在线推理。小的Student模型优势如下:

(1) Student结构较为简单,所以在线推理速度会大大快于复杂模型

(2) Teacher模型将一些知识迁移给了Student模型,所以经过知识蒸馏的Student模型推荐质量也比单纯的Student模型质量高。

3.小结

本文给出了知识蒸馏在广告系统的召回、粗排以及精排阶段的使用姿势。希望能带给大家一些新的思考。

欢迎大家关注计算广告那些事儿哈,除了原创文章之外,也会不定期和大家分享业内大牛的文章哈!


推荐阅读
  • 本文详细介绍了如何构建一个高效的UI管理系统,集中处理UI页面的打开、关闭、层级管理和页面跳转等问题。通过UIManager统一管理外部切换逻辑,实现功能逻辑分散化和代码复用,支持多人协作开发。 ... [详细]
  • 基因组浏览器中的Wig格式解析
    本文详细介绍了Wiggle(Wig)格式及其在基因组浏览器中的应用,涵盖variableStep和fixedStep两种主要格式的特点、适用场景及具体使用方法。同时,还提供了关于数据值和自定义参数的补充信息。 ... [详细]
  • 本文探讨了如何在 F# Interactive (FSI) 中通过 AddPrinter 和 AddPrintTransformer 方法自定义类型(尤其是集合类型)的输出格式,提供了详细的指南和示例代码。 ... [详细]
  • 历经三十年的开发,Mathematica 已成为技术计算领域的标杆,为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]
  • 本文介绍了如何在 C# 和 XNA 框架中实现一个自定义的 3x3 矩阵类(MMatrix33),旨在深入理解矩阵运算及其应用场景。该类参考了 AS3 Starling 和其他相关资源,以确保算法的准确性和高效性。 ... [详细]
  • Python中HOG图像特征提取与应用
    本文介绍如何在Python中使用HOG(Histogram of Oriented Gradients)算法进行图像特征提取,探讨其在目标检测中的应用,并详细解释实现步骤。 ... [详细]
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 本文将详细探讨 Java 中提供的不可变集合(如 `Collections.unmodifiableXXX`)和同步集合(如 `Collections.synchronizedXXX`)的实现原理及使用方法,帮助开发者更好地理解和应用这些工具。 ... [详细]
  • 一个登陆界面
    预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]
  • 洞态IAST Java Agent 实现AOP技术详解
    本文深入探讨了洞态IAST Java Agent如何通过AOP技术实现方法调用链和污点值传播等功能,为读者提供了详细的源码分析。 ... [详细]
  • 理解与应用:独热编码(One-Hot Encoding)
    本文详细介绍了独热编码(One-Hot Encoding)与哑变量编码(Dummy Encoding)两种方法,用于将分类变量转换为数值形式,以便于机器学习算法处理。文章不仅解释了这两种编码方式的基本原理,还探讨了它们在实际应用中的差异及选择依据。 ... [详细]
  • 本文探讨了如何使用pg-promise库在PostgreSQL中高效地批量插入多条记录,包括通过事务和单一查询两种方法。 ... [详细]
  • ML学习笔记20210824分类算法模型选择与调优
    3.模型选择和调优3.1交叉验证定义目的为了让模型得精度更加可信3.2超参数搜索GridSearch对K值进行选择。k[1,2,3,4,5,6]循环遍历搜索。API参数1& ... [详细]
  • 优雅实现 jQuery 折叠展开下拉菜单
    本文介绍了一种使用 jQuery 实现的优雅折叠和展开效果的下拉菜单,通过简单的 HTML 结构和 CSS 样式,结合 jQuery 脚本,可以轻松创建出美观且功能强大的下拉菜单。 ... [详细]
  • Vue 3.0 翻牌数字组件使用指南
    本文详细介绍了如何在 Vue 3.0 中使用翻牌数字组件,包括其基本设置和高级配置,旨在帮助开发者快速掌握并应用这一动态视觉效果。 ... [详细]
author-avatar
Mr尘世美_925
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有