当前位置: 开发笔记 > 编程语言 > 正文

浅谈CTR预估模型发展史

作者：我是小崔来啦 | 来源：互联网 | 2023-08-04 18:39

:mag:

浅谈 CTR 预估模型发展史

©PaperWeekly 原创 · 作者｜Zhang

学校｜上海交通大学硕士生

研究方向｜深度学习、自然语言处理

浅谈 CTR 预估模型发展史

背景介绍

Click Through Rate (CTR) Prediction 是一项非常重要的工业任务，例如计算广告中、推荐系统中的应用。计算广告中需要根据 CTR 的预估来进行竞价，有的推荐系统则基于 CTR 进行排序。

CTR 预测即给定一个用户/物品（广告）对，预测用户点击该物品的概率。其中输入的特征往往包括连续特征（年龄）和枚举特征（性别、地区），即 continuous field 和 categorical field。其中枚举特征还分为单一取值的特征（如性别）和多取值的特征（如购买记录）。

一般先用 one-hot 或 multi-hot encoding 的方式编码枚举特征，之后在很多模型中都会通过 embedding layer 再将它映射成 dense feature。最后根据这些处理过的 feature 来预测用户点击该物品的概率。

浅谈 CTR 预估模型发展史

模型发展史

传统的模型有：LR [1]、FM [2]、FTRL [3]、GBDT+LR [4]、FFM [5]、PL-LSM [6] 等。

2.1 2016年

最简单的基于 deep learning 的模型设计，例如 Deep Learning over Multi-field Categorical Data (DNN) 直接将 dense feature的concatenation 作为输入，在其上叠加多层的神经网络直接预测 CTR。

该文提出 FM supported 和 sampling based NN 两种具体实现方式，分别通过 FM、基于负采样的 DAE/RBM 预训练得到 embedding 的初始化值，以及通过使用 RBM contrastive divergence 预训练来初始化上层的神经网络参数；最后通过 fine-tune 的方式训练最终模型。

不同于上述模型完全依赖神经网络（如果不考虑预训练的作用）来学习不同 feature 之间的交互关系，另一类模型既显式地建模 feature 之间的低阶交互关系，又同时借助神经网络来建模高阶交互关系。

比如 Product-based Neural Networks for User Response Prediction (PNN) 中在不同的 feature 之间通过内积、外积的方式计算二阶交互特征，最后将原始的一阶和交互的二阶特征相加输入神经网络。

Wide & Deep Learning for Recommender Systems (Wide&Deep) 中的 wide model 使用一阶 feature 和通过手动设计 cross product transformation 得到的二阶 feature，通过 linear model 进行预测。

deep model 则直接从一阶 feature 出发叠加神经网络；最终将 Wide&Deep 两个模型 joint learning 训练。

2.2 2017年

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (DeepFM) 中结合使用了 FM 和 DNN，其中 DNN 的输入共享使用了 FM 中的 latent vector，最终结合两部分的 feature 进行最终预测。

Deep & Cross Network for Ad Click Predictions (Deep&Cross)中从 embedding layer 出发并行地搭建一个 cross network、一个 DNN，最终合并两个分支的 feature 进行最终预测。

其中 cross network 显式地建模了高阶（对应 cross network 的层数，不同于其他模型设计中只有二阶的显式交互设计）的 feature 交互。

Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks (AFM) 在 FM 的基础上，通过 attention 的机制给不同的二阶交互项加上权重、以及对 latent vector 的 Hadamard product 的不同 bit 进行加权求和：

其中 attention score根据的 Hadamard product 来计算。

Neural Factorization Machines for Sparse Predictive Analytics (NFM) 中首次完全融合了 FM 和 DNN，将 FM 中原有的 latent vector 内积项：

浅谈 CTR 预估模型发展史

替换为通过 Bi-Interaction Layer（如下图）+NN 建模的 feature 交互特征。

浅谈 CTR 预估模型发展史

2.3 2018年

FwFM: Field-weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising (FwFM) 中同样考虑了不同二阶交互特征对于最终预测的贡献度不同，因此在 FM 的二阶交互项中加入了权重系数，相比 FFM 减少了大量参数：

浅谈 CTR 预估模型发展史

xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems (xDeepFM) 中同样显式地建模了高阶的 feature 交互，进一步改进了 Cross Network，提出 Compressed Interaction Network，模型表达能力更强。

并且将 Cross Network 中 bit-wise 的交互方式（意味着同一个 feature embedding 的不同 bit 之间也会进行交互）改为 vector-wise 的交互方式。模型整体结构和 DeepFM 相同，将 FM 的部分替换为 CIN。

Deep Interest Network for Click-Through Rate Prediction (DIN) 在对 user behavior 的 feature（用户历史行为）处理中，区别于传统的 average pooling 或 concatenation 的方式，考虑到了每个 behavior 的参考价值与具体的待预测目标有关。

因此通过 attention 的方式进行了加权求和来建模 user interest：

浅谈 CTR 预估模型发展史

Deep Interest Evolution Network for Click-Through Rate Prediction (DIEN) 进一步关注了 user interest 随时间变化的特点。模型主要包括一个 interest extractor layer、一个 interest evolving layer，都是基于 GRU 的结构，在 user behavior 的时间序列上学习。

其中 interest evolving layer 的输入为 interest extractor layer 中对应时间步的隐藏层，并且由和待预测物体的特征计算得出 attention 来作为 update gate 的权重。

2.4 2019年

Deep Session Interest Network for Click-Through Rate Prediction (DSIN) 中则关注到用户的历史行为、用户兴趣的时间序列可分为不同的 session，session 内的行为比较 homogeneous，而不同 session 间则更heterogeneous。

因此对 user behavior 的建模包括了 session division、session interest extractor (multi-head self-attention)、session interest interaction (Bi-LSTM)、session interest activation (attention)。

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction (FiBiNET) 中提出了基于 Squeeze-and-Excitation 的 feature importance 计算方法以及 bilinear 的 feature 交互方法。

其中关于 bilinear interaction，新提出了杂交 Hadamard product 和 inner Product 的表达方式，例如：

浅谈 CTR 预估模型发展史

最终得出的二阶交互特征替换 FM 模型中的二阶交互项。

AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks (AutoInt) 中用 multi-head self attention network with residual connection 来建模 feature 交互。

2.5 2020年

FLEN: Leveraging Field for Scalable CTR Prediction (FLEN) 中提出了一种参数少、计算量小、适合工业化应用的模型，其中 feature 交互的部分结合了 intra/inter feature 的交互。最终用 field-wise bi-interaction module 得到的二阶特征 +DNN 学到的特征进行预测。

A Sparse Deep Factorization Machine for Efficient CTR prediction (Sparse DeepFwFM) 在 DeepFwFM 的基础上进行了 structural pruning，大大减少模型参数以符合线上运行的需求，并且使模型的 ensemble 成为可能。

浅谈 CTR 预估模型发展史

研究方向

feature interaction 的方式

只包含低阶（二阶）的特征交互，比如 FM、AFM、FFM、FwFM。
完全依赖深度学习来建模高阶的交互特征，比如 DNN、AutoInt。
结合显式的低阶特征交互建模和基于深度学习的高阶特征建模，比如 PNN、Wide&Deep、DeepFM、Deep&Cross、NFM、xDeepFM、FiBiNET、FLEN。其中 Deep&Cross 和 xDeepFM 显式建模了高于二阶的交互特征。

依据用户的历史行为以及待估计的对象研究用户的兴趣，比如 DIN、DIEN、DSIN。

简化模型、工业应用，比如 FwFM、FLEN、Sparse DeepFwFM。

其他还有推荐系统中基于 CTR 的模型，例如 RippleNet [7]，利用了用户和物品由点击历史构成的 graph 以及 knowledge graph，将用户兴趣在合并的 graph 上“传播”，类似于基于物体的协同过滤方法。

浅谈 CTR 预估模型发展史

效果比较

主要根据 AUC 和 logloss 来比较。在 Criteo 数据集上测试的模型较多，根据 paper 各自汇报的结果，在 Criteo 上表现最好的是 Sparse DeepFwFM，其次是 xDeepFM、DeepFM。根据 FLEN 自己在 Avazu 数据集上汇报的结果，FLEN 的优于 xDeepFM。

参考文献

[1] Richardson, Matthew ; Dominowska, Ewa ; Ragno, Robert. Predicting clicks: estimating the click-through rate for new ads.

[2] Rendle, Steffen ; Gantner, Zeno ; Freudenthaler, Christoph ; Schmidt-Thieme, Lars. Fast context-aware recommendations with factorization machines.

[3] Mcmahan, H ; Holt, Gary ; Sculley, D ; Young, Michael ; Ebner, Dietmar ; Grady, Julian ; Nie, Lan ; Phillips, Todd ; Davydov, Eugene ; Golovin, Daniel ; Chikkerur, Sharat ; Liu, Dan ; Wattenberg, Martin ; Hrafnkelsson, Arnar ; Boulos, Tom ; Kubica, Jeremy. Ad click prediction: a view from the trenches.

[4] He, Xinran ; Pan, Junfeng ; Jin, Ou ; Xu, Tianbing ; Liu, Bo ; Xu, Tao ; Shi, Yanxin ; Atallah, Antoine ; Herbrich, Ralf ; Bowers, Stuart ; Candela, Joaquin. Practical Lessons from Predicting Clicks on Ads at Facebook.

[5] Juan, Yuchin ; Zhuang, Yong ; Chin, Wei-Sheng ; Lin, Chih-Jen. Field-aware Factorization Machines for CTR Prediction.

[6] Gai, Kun ; Zhu, Xiaoqiang ; Li, Han ; Liu, Kai ; Wang, Zhe. Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction.

[7] Wang, Hongwei ; Zhang, Fuzheng ; Wang, Jialin ; Zhao, Miao ; Li, Wenjie ;Xie, Xing ; Guo, Minyi. RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems.

浅谈 CTR 预估模型发展史

点击以下标题查看更多往期内容：

变分推断（Variational Inference）最新进展简述
变分自编码器VAE：原来是这么一回事
图神经网络三剑客：GCN、GAT与GraphSAGE
如何快速理解马尔科夫链蒙特卡洛法？
深度学习预训练模型可解释性概览
ICLR 2020：从去噪自编码器到生成模型

浅谈 CTR 预估模型发展史

# 投稿通道 #

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学习心得 或 技术干货 。我们的目的只有一个，让知识真正流动起来。

:memo: 来稿标准：

• 稿件确系个人 原创作品 ，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

:mailbox_with_mail: 投稿邮箱：

• 投稿邮箱： hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

:mag:

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击 「交流群」 ，小助手将把你带入 PaperWeekly 的交流群里。

浅谈 CTR 预估模型发展史

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我们

推荐阅读

int
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
go
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
utf-8
MyBatis多表查询与动态SQL使用

本文介绍了MyBatis多表查询与动态SQL的使用方法，包括一对一查询和一对多查询。同时还介绍了动态SQL的使用，包括if标签、trim标签、where标签、set标签和foreach标签的用法。文章还提供了相关的配置信息和示例代码。 ... [详细]

蜡笔小新 2023-12-12 17:12:51
int
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
int
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
go
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
go
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25
go
scrapy存入excel时，excel文件被反复擦除重写。文件大小始终不超过100k，请问这种情况改如何解决

怀疑是每次都在新建文件，具体代码如下 ... [详细]

蜡笔小新 2023-12-13 17:53:49
int
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
int
Android自定义控件绘图篇之Paint函数大汇总

本文介绍了Android自定义控件绘图篇中的Paint函数大汇总，包括重置画笔、设置颜色、设置透明度、设置样式、设置宽度、设置抗锯齿等功能。通过学习这些函数，可以更好地掌握Paint的用法。 ... [详细]

蜡笔小新 2023-12-10 23:11:57
int
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15
web
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
utf-8
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
utf-8
ICRA2019最佳论文 Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio

文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议：ICRA2019标题：《MakingSenseofVision ... [详细]

蜡笔小新 2023-10-17 12:49:25

我是小崔来啦

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章