当前位置: 开发笔记 > 编程语言 > 正文

推荐召回DSSM模型

作者： | 来源：互联网 | 2023-09-07 12:10

DSSM模型全称：DeepStructureSemanticModel在应⽤于推荐系统时，通过两个塔分别去建模user侧和item侧的embedding，计算embedding之间

DSSM模型全称：Deep Structure Semantic Model

在应⽤于推荐系统时，通过两个塔分别去建模user侧和item侧的embedding，计算embedding之间的内积，最后⽤真实的label计算loss。

⼀些经典的双塔模型

1. MicroSoft-DSSM

双塔模型的⿐祖，是微软在CIKM2013发表的⼀篇⼯作，它主要是⽤来解决NLP领域语义相似度任务的。也是最初的DSSM。如果把document换成item或是⼴告，就演变成了⼀个推荐模型。

基本思想：

◦ 将搜索场景中的query 和 document映射到同⼀个低维空间

◦ query 和docment在低维空间的相似度表征两者的相关度

◦ 最⼤化点击document的条件概率

WordHashing：letter n-gram
英⽂单词维度是⽆限的，但是字⺟级别的n-gram是有限的，极⼤压缩维度
字⺟n-gram 可以捕捉同⼀单词的不同语态时态语境变化
out-of-vocubulary 鲁棒性，(前后缀，语态时态词的相似变化)
collision：不同单词的letter n-gram表⽰⼀样认为是⼀次碰撞

2. MicroSoft-MV-DSSM

Multi-View-DNN联合了多个域的丰富特征，使⽤multi-view DNN模型构建推荐，包括app、新闻、电影和TV，相⽐于最好的算法，⽼⽤⼾提升49%，新⽤⼾提升110%。并且可以轻松的涵盖⼤量⽤⼾，很好的解决了冷启动问题。但其使⽤前提是同⼀个主体公司下有很多APP，不同APP之间的⽤⼾数据是可以互相使⽤的，从其设计思路上讲就很容易的将该算法的使⽤限定在了为数不多的公司⾥。

训练模型使⽤的数据集：

User Features：⽤⼾在Bing搜索引擎中搜索的关键词和点击的链接数据（这⾥使⽤TF-IDF剔除掉不重要的词汇特征数据）

News Features：⽤⼾在Bing News中的新闻点击数据，每篇新闻选择了三部分特征（新闻的标题使⽤letter tri-gram技术进⾏编码、新闻的类别数据编码为⼆进制的特征、新闻的命名实体词提取然后使⽤letter tri-gram技术进⾏编码）

App Features：⽤⼾在Windows AppStore中的下载历史数据，每个APP的的标题（通过letter tri-gram技术进⾏编码）和APP的类别数据（编码为⼆进制的特征）

Movie/TV Features：⽤⼾在XBOX上的浏览数据，主要利⽤的是标题、描述、流派

在MV-DNN中，userfeatures 被⽤来作为user view，其余的特征映射到不同的view中，训练时⼀个user features中的样本和⼀个其他的样本形成样本对，为了达到这个训练⽬的，使⽤微软公司的唯⼀⽤⼾ID进⾏关联，News Features、App Features、Movie/TV Features分别和User Features 中的进⾏关联。

MV-DNN ⾥⾯的 MV 为 Multi-View ，⼀般可以理解为多视⻆的 DSSM ，在原始的DSSM中需要训练的有 Query 和 Doc这两类的embedding，同时⾥⾯DNN的所有权重都是共享的，⽽MV-DSSM他可以训练不⽌两类的训练数据，同时⾥⾯的深度模型的参数是相互独⽴，基于Multi-View的DSSM的参数变多了，由于是多视⻆的训练，输⼊的语料也变得不同，⾃由度更⼤，但是训练时也会变得更加困难。

3. Google Youtube-2019

YouTube使⽤的视频召回双塔模型。

• 训练Label

训练集Label并不是点击即为1，未点击为0。⽽是当⼀个视频被点击但是观看时⻓⾮常短时，label 同样是0。当视频被完整看完时，label才是1。

• 视频侧特征

视频侧包含的特征包含类别特征（如视频ID、频道ID）和连续特征。类别特征中有分为单值类别特征和多值类别特征，对于多值类别特征，采⽤对embedding加权平均的⽅式得到最终的 embedding。

• ⽤⼾侧特征

⽤⼾侧特征主要是基于⽤⼾的历史观看记录来捕获⽤⼾的兴趣。⽐如使⽤⽤⼾最近观看过的k个视频的embedding的平均值。对于类别特征，embedding在模型的两侧是共享的。

YouTube这个模型最⼤的不同是，训练过程是基于流数据的，每⼀天都会产⽣新的训练数据。因此，负样本的选择只能在batch内进⾏，batch内的所有样本会作为彼此的负样本去做batch softmax。这种采样的⽅式带来了⾮常⼤的bias,热⻔视频的采样概率会更⾼，也会更⼤概率被当做负样本，不符合实际情况。因此论⽂核⼼解决的问题是减⼩batch内负采样带来的bias。

负采样概率计算采⽤的⽅式为使⽤hash策略来对物品的采样概率进⾏更新。通过hash函数h，对物品 ID进⾏映射。同时使⽤两个⻓度为H的数组A和B，通过h(y)来得到其在数组A和B中下标。A[h(y)]记录上⼀次物品y被采样到的训练时刻，B[h(y)]记录物品y采样的预估频率。hash过程中的冲突情况会导致 B[h(y)]较⼩，导致采样概率预估过⾼。因此使⽤multiple hashings，采⽤了多组hash⽅程和数组A和 B。训练完成时使⽤最⼤的⼀个B[h(y)]去计算采样概率。

论⽂还提出两点经验

• 对两侧输出的embedding做L2标准化

• 计算user embedding和item embedding内积时除以一个超参数，使softmax效果更明显

4. EBR(Facebook kdd 2020)

模型结构为简单的双塔，两边塔的输入都是文本特征、社交特征和位置特征，其中社交特征和位置特征是他们在实验中发现对效果提升比较好的两种特征。这篇工作的两个核心亮点是hard negative mining和embedding ensemble。

Hard negative mining是指，他们发现如果将随机负样本这种比较easy的样本与上次召回中排名101-500名的比较hard的样本以100:1的比例去训练模型，得到的效果会比较好。

Embedding ensemble是指，可以将不同负样本训练得到的模型做融合来进行召回。融合的方式可以是相似度结果的直接加权或者是模型的串行融合，比如先用easy负样本训练模型进行初步的筛选，再用hard负样本训练模型进行最终的召回。

另外，虽然使用unified的特征，就是输入中包含社交特征和位置特征，来进行召回效果会比较好，但是召回结果在一定程度上也会损失文本的匹配，因此也可以先通过只输入文本特征的模型来做筛选再用输入unified特征的模型来召回，这样可以保证文本的匹配。

双塔线上服务

FB开始采用的是在现有系统的基础上再搭建一套向量召回的服务，但是这样会遇到以下几个问题。

*性能上撑不住

*维护两套索引系统，成本太高

*term match与embedding match两套系统召回的doc重复度很高

因此FB重建了一同融合term match与embedding match的召回系统，搞了大名鼎鼎的Faiss，通过Faiss进行向量压缩并且将它融合进倒排索引中。这套系统有两个优势：

1. 可以同时优化term matching和embedding matching。

2. 支持在向量召回的基础上添加term matching的限制，从而提升召回的效率

向量压缩主要包括两个部分：

Coarse quantization：粗糙压缩，通过k-means等手段进行聚类，通过聚类的结果来表达embedding。

product quantization：精细化的压缩，从而可以更高效的计算embedding间距离。

5. 莫比乌斯（百度kdd 2019）

整个框架分为两个阶段，数据增强阶段是绿色箭头的部分，采样并利用样本中的用户请求与广告构造出更多样本，教师网络计算相似度后将低相似度的样本输入学生网络去预测CTR，通过采样的方式得到高CTR低相似度的样本存入buffer，这类样本称为bad case。

第二个阶段是橙色箭头表示的CTR模型训练阶段，将原先采样得到的原始样本也存入buffer，利用buffer中的三种样本去训练CTR模型。

虽然百度提出了这样一种框架，但是召回和排序的直接统一在实现的过程中还是比较困难的，因为面临的候选广告集数量太大，在性能方面还是难以保证。但是Mobius的这种将商业指标提前引入召回阶段的思想是非常具有探索价值的，比如文章中提到将cosine相似度直接乘上一个商业指标作为系数，就是一个很简单的方式。

双塔模型特点

双塔模型最大的特点就是“双塔分离”。只不过“部署时分离”成了双塔最大的优点，而“训练时分离”成了制约双塔性能的最大因素。

模型部署

￮由于item tower完全不依赖于user信息，所以海量的item embedding可以周期性、批量、离线生成，大大减轻了线上serving的压力

￮由于user tower完全不依赖于item信息，所以无论候选集是几千（粗排）或十万级、百万级（召回），user embedding只需要生成一遍

模型训练

￮ user信息只能喂入user tower, item信息只能喂入item tower，没有地方喂入user & item之间的交叉特征

￮ user侧信息与item侧信息，只有唯一一次交叉机会，就是在双塔生成各自的embedding之后的那次点积或cosine。但是这时参与交叉的user/item embedding，已经是高度浓缩的了。一些细节信息已经损失，永远失去了与对侧信息交叉的机会。

￮为了线上快速serving，交叉只能是简单的dot或cosine。一些复杂的、依赖于底层信息的交叉结构，比如target item对user action history的attention，也在双塔中找不到位置。

实际应用流程

线下训练

将用户侧的信息喂入一个DNN（user tower），最终得到一个user embedding

将物料侧的信息喂入一个DNN（ item tower），最终得到一个item embedding

拿user embedding与item embedding，做点积或cosine，得到logit，代表user & item之间的匹配程度

设计loss，将user tower, item tower, 和各种特征的embedding，进行训练

线上serving

离线、周期性、批量将item信息（i.e., 十万、百万级别）喂入item tower，得到item embedding

得到的item embedding，导入FAISS，建立索引

线上接到用户请求后，将user信息喂入user tower，得到user embedding

拿得到的user embedding，在faiss中做近邻搜索(ANN)，得到与user embedding相邻item，作为召回内容返回

示例代码

import faiss
# faiss索引构建
d = 64
nlist = 10
index = faiss.IndexFlatL2(d)
index.add(item_embs)
# 用户推荐结果索引
D, I = index.search(user_embed, 50)

负样本挖掘

1. batch随机负采样

输入数据只有正例，在训练的时候，在batch内随机采样一定比例的负样本，一定程度上可以解决Sample Selection Bias问题

2. hard sample

要根据具体业务场景去判定了，Airbnb hard negative的选取策略:（1）增加与正样本同城的房间作为负样本（2）增加“被房主拒绝”作为负样本

3. 随机负例+热门打压

随机选择，但是越是流行的Item，越大概率会被选择作为负例。例如word2vec中，某物料成为正样本的概率

其中z(ωi)是第i个物料的曝光或点击占比，理解为降低热门item成为正样本的概率。某物料成为负样本的概率

其中n(ωi)是第i个物料的出现次数，而α一般取0.75，理解为增加热门item成为负样本的概率。

随机负采样

点击样本为正样本，随机样本为负样本，但不是等概率随机

热门内容为正样本时，降低概率；

冷门内容为负样本时，提高概率

正样本还可根据停留时长去除误点击样本

百度《Sample Optimization For Display Advertising》-关于召回模型如何选取训练样本

Weighted Random Negative Sampling-加权随机负采样

根据广告的曝光频率，以α为分解点，把广告分成两部分Ah和Al，然后随机生成一个0到1之间的随机数p，如果p

如果p > pl,从Ah中基于一元模型分布(unigram distribution)采样一个负样本广告

由于Al的数量远大于Ah的数量，与原始的负采样方法相比，我们的策略在保留原始属性的同时显着减少了内存使用。

Real-Negative Subsampling-降采样

在百度的凤巢系统统计中，总的ctr值大概只有0.03%，少数的头部广告会占据很大的曝光，它们可能同时出现在正样本（曝光并点击）和真实负样本（曝光但未点击）中。我们不希望这些头部广告过多出现在负样本中，因为它们通常具有很高的商业价值，所以会对这些头部广告的负样本进行降采样，具有高曝光的广告的负样本，基于以下的概率进行抛弃：

f是曝光的频率，也就是说曝光越多的广告的p就越大，那么它从负样本集合中被抛弃的概率就越大。

• Sample refinement with PU Learning-“真正”负样本划分

由于曝光未点击的广告并不能直接的定性为真正的负样本，所以将样本划分为了标记的样本 (点击的广告，这部分已经完全的确定了是正样本)，另一部分为未标记样本，这部分由可靠的负样本和有可能是正样本的广告组成。百度要做的就是针对未标记的样本，将真正的负样本从中划分出来。划分的方式是训练SVM分类器来给样本进行打分。

• Fuzzy Positive Sample Augmentation-通过模糊逻辑增加正样本

为了缓解数据稀缺问题，百度引入了模糊逻辑来增加正样本。为了增加正样本，解析未显示的事件日志，并在最终列表中收集所有三元组（用户，广告，CPM），并且CPM高于预定义的阈值。将这些三元组（用户，广告，每千次展示费用/出价）称为“模糊的正样本”，并将其添加到正样本的训练集中。值得注意的是，由于模糊正样本的标签不是点击记录，因此其标签小于1。

Test

数据源

MovieLens数据集，包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。结构为

数据工程

三个数据文件进行【MovieID, UserID】维度的merge

“genres”列通过“|”进行split，转换为数字list表示

负样本生成

方案1

将用户评分的电影作为正样本，在所有的电影中随机采样其余若干个电影作为用户的负样本；

方案2

对数据集中用户评分较高的作为正样本，用户评分低的作为负样本；

若用于召回中，一般采用方案一。召回是从全量电影资源中选择用户感兴趣的电影，面对的是整个电影数据资源，感兴趣的对用户来说是一个较为模糊的结果，对精度的要求没有那么高。方案2所面对的资源是全量电影资源中很少一部分，与实际应用过程的数据分布明显不符合，同时由于对电影的评分进行了细粒度的量化，模型能很好的区分哪些电影是用户喜欢的哪些是不喜欢的精度较高，方案2更适合排序。方案1的数据是全量电影数据，对于正负样本的定义也没那么精准，所以模型学习到的也是一个较为模糊的偏好。

负样本生成的同时，生成一列新的特征“hist_movie”，表示用户在此前看过的电影。

输入特征定义为

user_feature_columns = [SparseFeat('user_id', feature_max_idx['user_id'], embedding_dim),
SparseFeat("gender", feature_max_idx['gender'], embedding_dim),
SparseFeat("age", feature_max_idx['age'], embedding_dim),
SparseFeat("occupation", feature_max_idx['occupation'], embedding_dim),
SparseFeat("zip", feature_max_idx['zip'], embedding_dim),
VarLenSparseFeat(SparseFeat('hist_movie_id', feature_max_idx['movie_id'], embedding_dim,
embedding_name="movie_id"), SEQ_LEN, 'mean', 'hist_len'),
]
item_feature_columns = [SparseFeat('movie_id', feature_max_idx['movie_id'], embedding_dim),
VarLenSparseFeat(SparseFeat('genres', 19, embedding_dim,
embedding_name="genres_list"), 8, 'mean')]

模型结构

User tower

Item tower

损失函数

二元交叉熵-binary_crossentropy

改进loss

binary_crossentropy * (1 - y_true) + weight * binary_crossentropy * (y_true)

效果：

当weight大于1时，增加对正样本判断错误的惩罚度

embedding获取

model.compile(optimizer=optimizer, loss="binary_crossentropy", metrics=["acc"])
history = model.fit(train_model_input, train_label, batch_size=64, epochs=100, verbose=1, validation_split=0.0, )

user_embedding_model = Model(inputs=model.user_input, outputs=model.user_embedding)
item_embedding_model = Model(inputs=model.item_input, outputs=model.item_embedding)
# 获取embedding
user_embs = user_embedding_model.predict(test_user_model_input, batch_size=2 ** 12)
item_embs = item_embedding_model.predict(all_item_model_input, batch_size=2 ** 12)

推荐阅读

ascii
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
ascii
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
ascii
Android开发技巧：使用IconFont减少应用体积

本文介绍如何在Android应用中使用IconFont来显示图标，从而有效减少应用的体积。 ... [详细]

蜡笔小新 2024-11-12 12:07:42
ascii
利用MATLAB实现“逢七必过”游戏规则与数字图像处理技术的应用——第4章深入解析

在《数字图像处理及应用（MATLAB）第4章》中，详细探讨了“逢七必过”游戏规则的实现方法，并结合数字图像处理技术进行了深入分析。本章通过丰富的实例和代码示例，展示了如何利用MATLAB实现这一游戏规则，并介绍了数字图像处理的基本原理和技术应用。内容涵盖了图像增强、滤波、边缘检测等多个方面，为读者提供了全面的技术支持和实践指导。 ... [详细]

蜡笔小新 2024-11-11 11:46:42
ascii
帝国CMS中的信息归档功能详解及其重要性

本文详细解析了帝国CMS中的信息归档功能，并探讨了其在内容管理中的重要性。通过归档功能，用户可以有效地管理和组织大量内容，提高网站的运行效率和用户体验。此外，文章还介绍了如何利用该功能进行数据备份和恢复，确保网站数据的安全性和完整性。 ... [详细]

蜡笔小新 2024-11-09 20:42:14
controller
Spring框架中枚举参数的正确使用方法与技巧

本文详细阐述了在Spring Boot框架中正确使用枚举参数的方法与技巧，旨在帮助开发者更高效地掌握和应用枚举类型的数据传递，适合对Spring Boot感兴趣的读者深入学习。 ... [详细]

蜡笔小新 2024-11-09 20:34:17
controller
深入解析NoSQL数据库：键值对、文档、列式存储与图数据库的应用与特点

本文深入探讨了NoSQL数据库的四大主要类型：键值对存储、文档存储、列式存储和图数据库。NoSQL（Not Only SQL）是指一系列非关系型数据库系统，它们不依赖于固定模式的数据存储方式，能够灵活处理大规模、高并发的数据需求。键值对存储适用于简单的数据结构；文档存储支持复杂的数据对象；列式存储优化了大数据量的读写性能；而图数据库则擅长处理复杂的关系网络。每种类型的NoSQL数据库都有其独特的优势和应用场景，本文将详细分析它们的特点及应用实例。 ... [详细]

蜡笔小新 2024-11-09 14:47:28
controller
Web开发框架概览：Java与JavaScript技术及框架综述

Web开发涉及服务器端和客户端的协同工作。在服务器端，Java是一种优秀的编程语言，适用于构建各种功能模块，如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示，同时借助JavaScript增强交互性和动态效果。此外，现代Web开发还广泛使用各种框架和库，如Spring Boot、React和Vue.js，以提高开发效率和应用性能。 ... [详细]

蜡笔小新 2024-11-09 11:59:38
controller
插入排序_动画 | 什么是插入排序？

插入排序_动画 | 什么是插入排序？ ... [详细]

蜡笔小新 2024-11-12 09:31:21
require
Mac上安装Jupyter Notebook的详细步骤与技巧

本文将详细介绍如何在Mac上安装Jupyter Notebook，并提供一些常见的问题解决方法。通过这些步骤，您将能够顺利地在Mac上运行Jupyter Notebook。 ... [详细]

蜡笔小新 2024-11-12 00:45:51
require
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
require
考试未过，心情低落至极，求安慰与建议~~~~~~~~~~~~~~

看到成绩时，离散数学得了94分，本以为一切顺利，却没想到多媒体课程只有57分，四年的奖学金梦想也因此破灭。有没有曾经挂过科但后来依然取得好成就的同学？现在心情非常低落，希望能得到一些安慰和建议。虽然挂科有些遗憾，但至少以后不用再上那些乏味的课程了，而且评优的机会也与我无关了。 ... [详细]

蜡笔小新 2024-11-11 23:44:43
join
Java并发编程指南：深入理解信号量机制

本文是Java并发编程系列的开篇之作，将详细解析Java 1.5及以上版本中提供的并发工具。文章假设读者已经具备同步和易失性关键字的基本知识，重点介绍信号量机制的内部工作原理及其在实际开发中的应用。 ... [详细]

蜡笔小新 2024-11-11 15:49:02
header
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
require
如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解

如何使用 `org.eclipse.rdf4j.query.impl.MapBindingSet.getValue()` 方法及其代码示例详解 ... [详细]

蜡笔小新 2024-11-11 02:42:52

Tags | 热门标签

RankList | 热门文章