干货！基于元学习的内容定向推广

作者：讨厌上学的-彭志超-_354 | 来源：互联网 | 2023-10-14 18:00

点击蓝字关注我们AITIME欢迎每一位AI爱好者的加入！在推荐系统和广告平台上，内容定向推广模块需要尽可能将商品、内容或者广告传递到潜在的对内容感兴趣的

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入&＃xff01;

在推荐系统和广告平台上&＃xff0c;内容定向推广模块需要尽可能将商品、内容或者广告传递到潜在的对内容感兴趣的用户面前。扩充候选集技术(Look-alike建模)需要基于一个受众种子集合识别出更多的相似潜在用户&＃xff0c;从而进行更有针对性的内容投放。然而&＃xff0c;look alike建模通常面临两个挑战: (1) 一个系统每天可能需要处理成百上千个不同种类的内容定向推广实例(例如体育、政治、社会等不同领域的内容定向推广)。因此&＃xff0c;我们很难构建一个泛化的方法&＃xff0c;同时针对多样的定向推广任务扩充高质量的受众候选集。(2) 一个内容定向推广任务的受众种子集合可能非常小&＃xff0c;而一个基于有限种子用户的定制化模型往往会产生严重的过拟合。为了解决以上的挑战&＃xff0c;我们提出了一种新的两阶段框架Meta Hybrid Experts and Critics (MetaHeac)。在离线阶段&＃xff0c;我们在不同种类的内容定向推广任务的历史行为数据上&＃xff0c;采用元学习的方法训练一个泛化初始化模型。这个模型可以同时抓取不同任务之间的关系&＃xff0c;从而能够快速适应新类别内容推广任务。在线上阶段&＃xff0c;针对一个新的内容推广实例&＃xff0c;模型能够基于给定的种子集合和高线训练得到的泛化初始化模型&＃xff0c;快速训练出这个实例的定制化推广模型。我们通过高线实验和线上实验验证了MetaHeac的有效性。目前&＃xff0c;该框架已部署到微信中&＃xff0c;用于部分内容定向推广场景。

本期AI TIME PhD直播间我们邀请到中科院计算技术研究所的博士生——朱勇椿&＃xff0c;为我们带来报告《基于元学习的内容定向推广》。

朱勇椿&＃xff1a;

中国科学院计算技术研究所四年级在读博士生&＃xff0c;导师为曹娟研究员和庄福振教授。主要研究方向为迁移学习、推荐系统等。在包括KDD&＃xff0c;WWW&＃xff0c;SIGIR等会议与期刊发表多篇论文。

背景

现在互联网市场拥有上亿级别的用户&＃xff0c;系统如何将广告、内容和产品投放到潜在的用户面前成为了一个重要任务。内容定向投放在生活中经常出现&＃xff0c;如最近的“英雄联盟总决赛夺冠信息”&＃xff0c;腾讯希望定向投放到对英雄联盟感兴趣的用户面前。再比如双十一时&＃xff0c;商家购买了一定的流量&＃xff0c;系统会针对商家的商品进行内容投放&＃xff0c;而且内容投放的精准程度会对商家经济收益产生影响。

在推荐系统和广告平台上&＃xff0c;内容定向推广模块负责尽可能将商品内容或者广告传递到潜在的对内容感兴趣的用户面前。内容定向推广会使用到扩充候选集技术&＃xff0c;也称Look-alike建模。针对一个受众种子集合识别出更多相似的潜在用户&＃xff0c;从而进行更有针对性的内容投放工作。如下图所示&＃xff0c;通常市场营销人员给出一个种子集合&＃xff0c;然后Look-alike系统根据这个种子集合扩充出候选集合&＃xff0c;再通过推荐系统将推广的内容、产品、广告送到潜在用户面前。

目前已经有很多公司部署了基于Look-alike的内容定向推广技术&＃xff0c;比如Google&＃xff0c;领英&＃xff0c;蚂蚁金服&＃xff0c;微信等等。

基于Look-alike的内容定向推广技术一般面临两个挑战&＃xff1a;

一是不同的内容定向推广任务&＃xff08;市场营销任务&＃xff09;会覆盖完全不同的内容。

比如新闻的内容定向推广中&＃xff0c;新闻按照领域不同可分为体育新闻&＃xff0c;娱乐新闻&＃xff0c;政治新闻&＃xff0c;社会新闻等&＃xff0c;不同领域的新闻内容差异较大&＃xff0c;因此一个公共的模型很难满足所有内容定向推广任务。

二是一个确定的内容定向推广任务&＃xff08;市场营销任务&＃xff09;可能只会给定一个很小的种子集合。

较小的种子集合涉及的用户范围小&＃xff0c;而基于这样的种子集合进行定制化任务训练很有可能导致过拟合。特别是有的种子集合中只包含几百个用户的场景中过拟合现象往往更严重。

以往内容定向推广方法分为三大类&＃xff1a;基于规则的方法、基于相似度量的方法、基于模型的方法。下表是现有内容定向推广方法及其局限性。

最近几年基于模型的方法对于每个内容定向投放任务都会训练一个定制化模型&＃xff0c;取得了显著效果提升。然而针对每个内容定向推广任务都从头训练一个定制化模型&＃xff0c;显然会导致过拟合问题产生。

针对上面的问题&＃xff0c;出现了新的基于模型的方法。新方法将扩充候选集任务分为了两个阶段&＃xff0c;离线阶段和在线阶段。在离线阶段&＃xff0c;这些方法训练一个公共的embedding层。在online阶段&＃xff0c;它们基于这个embedding层训练一个定制化的模型。

方法

下面是一个简单的Look-alike系统示意图。一个内容定向推广任务系统存储着各种任务的数据&＃xff0c;模型需要基于这些数据预训练得到一个泛化的模型&＃xff0c;然后针对一个新来的内容定向推广任务&＃xff0c;微调一个定制化的模型。得到这个定制化的模型后&＃xff0c;模型从整个用户候选集中筛选出TopK个潜在的用户&＃xff0c;向这些用户推广特定的内容。

本文提出一个新的两阶段框架Meta Hybrid Experts and Critics (MetaHeac)。两阶段同样是包含离线阶段和在线阶段。在离线阶段&＃xff0c;基于所有已有内容定向推广任务的数据&＃xff0c;训练一个泛化模型。训练泛化模型的两个关键点包括&＃xff1a;①这个泛化模型应该学到扩充候选集的能力。②这个泛化模型应该能学到可迁移的知识&＃xff0c;抓获任务间关系。在线阶段&＃xff0c;基于特定定向推广任务以及该泛化模型&＃xff0c;训练一个定制化的模型来查询候选集合。

MetaHeac包含两个大模块。第一个模块是基于元学习的训练方法&＃xff0c;第二个模块是建模任务间关系的结构。

首先介绍基于元学习的训练方法&＃xff0c;我们定义了两个二分类的模型——泛化模型和定制化模型&＃xff0c;预测用户是否对当前任务感兴趣。

扩充候选集的流程包括如下两个阶段&＃xff1a;&＃xff08;1&＃xff09;理解&＃xff1a;这一阶段旨在理解种子集合中的用户特点&＃xff0c;基于种子集合训练一个定制化的模型。&＃xff08;2&＃xff09;寻找&＃xff1a;这一阶段旨在基于定制化的模型&＃xff0c;从候选集中找到潜在的客户。我们希望学习一个泛化的预训练模型&＃xff0c;这个预训练模型能学会如何扩充候选种子集。因此&＃xff0c;我们采用如下流程来模拟这两个阶段。整个训练过程如下图所示。

然后介绍MataHeac的第二个模块——任务间关系结构的建模。为了抓取任务间的关系&＃xff0c;我们提出了一种混合专家和评论家系统。单个专家只擅长某几个特定领域&＃xff0c;而多样的内容定向推广任务覆盖各个领域。综合不同的专家&＃xff0c;能够覆盖不同领域的知识。

因此&＃xff0c;我们采用多个专家来提取用户的不同维度的表示。我们认为针对不同的内容定向推广任务&＃xff0c;应该采纳不同专家提取的表示。基于这个假设&＃xff0c;我们提出了一种任务驱动门&＃xff08;Task-driven gate&＃xff09;&＃xff0c;用以聚合所有专家给出的用户表示。和专家&＃xff08;Expert&＃xff09;不同&＃xff0c;评论家&＃xff08;Critic&＃xff09;旨在给出具体评分&＃xff0c;判断用户是否对该次内容定向推广任务推销的物品感兴趣。我们也使用多个评论家&＃xff0c;并且使用任务驱动门来聚合多个评论家的分数。

实验

数据集&＃xff1a;

Tencent Look-alike Dataset 、WeChat Look-alike Dataset

Baseline&＃xff1a;

评价指标&＃xff1a;AUC, P&＃64;K%, R&＃64;K%

实验结果&＃xff1a;

&＃xff08;1&＃xff09; 离线实验

&＃xff08;2&＃xff09; 在线实验

&＃xff08;3&＃xff09; MetaHeac各模块效果验证

提

醒

点击“阅读原文”&＃xff0c;即可观看本场回放

整理&＃xff1a;AI Timer

审核&＃xff1a;朱勇椿

AI TIME欢迎AI领域学者投稿&＃xff0c;期待大家剖析学科历史发展和前沿技术。针对热门话题&＃xff0c;我们将邀请专家一起论道。同时&＃xff0c;我们也长期招募优质的撰稿人&＃xff0c;顶级的平台需要顶级的你&＃xff01;

请将简历等信息发至min.gao&＃64;aminer.cn&＃xff01;

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展&＃xff0c;并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神&＃xff0c;邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索&＃xff0c;加强思想碰撞&＃xff0c;打造一个知识分享的聚集地。

更多资讯请扫码关注

我知道你在看哟

点击“阅读原文”查看精彩回放

推荐阅读

io
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
int
Google Clips智能相机悄然上市：自动捕捉生活中的珍贵瞬间

Google最新推出的嵌入AI技术的便携式相机Clips现已上架，旨在通过人工智能技术自动捕捉用户生活中值得纪念的时刻，帮助人们减少照片数量过多的问题。 ... [详细]

蜡笔小新 2024-12-26 17:26:09
chat
2017苹果全球开发者大会前瞻：iOS革新、Siri智能音箱与AI技术引领未来

2017年苹果全球开发者大会即将开幕，预计iOS将迎来重大更新，同时Siri智能音箱有望首次亮相，AI技术成为大会焦点。 ... [详细]

蜡笔小新 2024-12-18 18:02:27
int
Go语言基础：Hello World 实践

本文将介绍如何使用 Go 语言编写和运行一个简单的“Hello, World!”程序。内容涵盖开发环境配置、代码结构解析及执行步骤。 ... [详细]

蜡笔小新 2024-12-27 21:29:35
int
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
int
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
int
从零开始构建完整手机站：Vue CLI 3 实战指南（第一部分）

本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点，并确保这些内容与实际工作中的需求紧密结合。 ... [详细]

蜡笔小新 2024-12-26 13:30:37
object
深入解析Java枚举及其高级特性

本文详细介绍了Java枚举的概念、语法、使用规则和应用场景，并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual)，欢迎Star并持续关注。 ... [详细]

蜡笔小新 2024-12-22 14:46:52
io
微信小程序：授权登录与手机号绑定

本文详细介绍了微信小程序中用户授权登录及绑定手机号的流程，结合官方指引和实际开发经验，提供了一套完整的实现方案，帮助开发者更好地理解和应用。 ... [详细]

蜡笔小新 2024-12-21 14:20:40
io
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
text
Python 实现微信支付集成

本文详细介绍如何使用 Python 集成微信支付的三种主要方式：Native 支付、APP 支付和 JSAPI 支付。每种方式适用于不同的应用场景，如 PC 网站、移动端应用和公众号内支付等。 ... [详细]

蜡笔小新 2024-12-20 17:39:09
chat
基于Go与WebSockets的实时聊天服务搭建

本文详细介绍了如何利用Go语言和WebSockets技术构建一个高效的实时聊天系统。随着网络应用的日益复杂化，实时交互成为了提升用户体验的关键要素之一。通过本指南，开发者可以学习到最新的技术和最佳实践。 ... [详细]

蜡笔小新 2024-12-20 08:50:37
io
YB02 防水车载GPS追踪器

YB02防水车载GPS追踪器由Yuebiz科技有限公司设计生产，适用于车辆防盗、车队管理和实时追踪等多种场合。 ... [详细]

蜡笔小新 2024-12-18 14:59:54
usb
2015款Chromebook Pixel评测：高端Chrome OS笔记本体验

在笔记本电脑领域，Chromebook Pixel凭借其精致的铝合金外壳、细腻的显示屏和舒适的键盘，成为了外观设计的佼佼者。然而，尽管外观出众，它是否值得购买仍需考量。 ... [详细]

蜡笔小新 2024-12-15 16:12:50
io
Twisted网络编程必备（1）注：测试版本Twisted10.1.0.winxp32py2.6，对于原代码略有修改

转自：http:www.yybug.comread-htm-tid-15324.html为什么使用Twisted? 如果你并不准备使用Twisted，你可能有很多异议。为什么使用T ... [详细]

蜡笔小新 2024-12-13 14:57:51

讨厌上学的-彭志超-_354

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章