9篇顶会论文解读推荐中的序列化建模：SessionbasedNeuralRecommendation

作者：止在雲端_495 | 来源：互联网 | 2023-09-09 14:07

9,篇,顶,会,论文,解读,推荐,中的,序列,化,建模,session,based,neural,reco

前言

本文对 Recurrent Neural Network 在推荐领域的序列数据建模进行梳理，整理推荐领域和深度学习领域顶会 RecSys、ICLR 等中的 9 篇论文进行整理。图片和文字来源于原文，帮助读者理解，有争议的请联系我。

Session-based neural recommendation

首先介绍下 session-based 的概念：session 是服务器端用来记录识别用户的一种机制。典型的场景比如购物车，服务端为特定的对象创建了特定的 Session，用于标识这个对象，并且跟踪用户的浏览点击行为。我们这里可以将其理解为具有时序关系的一些记录序列。

写作动机

传统的两类推荐方法——基于内容的推荐算法和协同过滤推荐算法（model-based，memory-based）在刻画序列数据中存在缺陷：每个 item 相互独立，不能建模 session 中 item 的连续偏好信息。

传统的解决方法

1. item-to-item recommendation approach (Sarwar et al.,2001; Linden et al., 2003) : 采用 session 中 item 间的相似性预测下一个 item。缺点：只考虑了最后一次的 click 的 item 相似性，忽视了前面的的 clicks, 没有考虑整个序列信息。

2. Markov decision Processes （MDPs）（Shani et al., 2002）：马尔科夫决策过程，用四元组（S: 状态, A: 动作, P: 转移概率, R: 奖励函数）刻画序列信息，通过状态转移概率的计算点击下一个动作：即点击 item 的概率。缺点：状态的数量巨大，会随问题维度指数增加。MDPs 参见博客[1]。

Deep Neural Network 的方法

Deep Neural Network（RNN：LSTM 和 GRU 的记忆性）被成功的应用在刻画序列信息。因为论文中主要采用 GRU，下面简单介绍下 GRU（LSTM 详解参考博客[2]）。

GRU的原理：GRU 输入为前一时刻隐藏层 ?tp=webp&wxfrom=5&wx_lazy=1

到此，已经说明用 GRU 来刻画 session 中的序列的合理性。下面我们来梳理相关的工作。

Session-based recommendations with recurrent neural networks

ICLR 2016

本文的贡献在于首次将 RNN 运用于 Session-based Recommendation，针对该任务设计了 RNN 的训练、评估方法及 ranking loss。

Motivation (Why)：第一篇提出将 RNN 应用到 session-based recommendation 的论文。
Main Idea (What)：一个 session 中点击 item 的行为看做一个序列，用 GRU 来刻画。
How：

模型（GRU4REC）架构

模型输入：session 中的点击序列， ?tp=webp&wxfrom=5&wx_lazy=1

训练策略

为了提高训练的效率，文章采用两种策略来加快简化训练代价，分别为：

Training strategy：为了更好的并行计算，论文采用了 mini-batch 的处理，即把不同的session 拼接起来，同一个 sequence 遇到下一个 Session 时，要注意将 GRU 中的一些向量重新初化。

791b04850c0c0ba85fa0cc75c82adb6cea7905d9

Training data sample：因为 item 的维度非常高，item 数量过大的概率会导致计算量庞大，所以只选取当前的正样本（即下一个点击的 item）加上随机抽取的负样本。论文采用了取巧的方法来减少采样需要的计算量，即选取了同一个 mini-batch 中其他 sequence 下一个点击的 item 作为负样本，用这些正负样本来训练整个神经网络。

损失函数

损失函数的选择也影响着模型的效果，文章尝试两种损失函数：

Point-wise ranking loss，即认为负样本为 0，正样本为 1 的 loss function，发现训练出来的模型并不稳定，因为在推荐里面，并不存在绝对的正样本和负样本，用户可能对多个 item 存在偏好。

故采用 Pairwise ranking，即正样本的 loss 要低于负样本。本文使用了两种基于 Pairwise ranking 的 loss function：

BPR：一种矩阵分解法，公式：

2b1f7924f5d4e4928ecc2f698d9a61a824af3731

TOP1：一种正则估计，公式：

e1c3163b7698c734622bf588c34e5382516a95e7

数据集

RecSys Challenge 2015：网站点击流
Youtube-like OTT video service platform Collection

评价指标

recall@20、MRR

Baselines

POP：推荐训练集中最受欢迎的 item；

S-POP：推荐当前 session 中最受欢迎的 item；

Item-KNN：推荐与实际 item 相似的 item，相似度被定义为 session 向量之间的余弦相似度；

BPR-MF：一种矩阵分解法，新会话的特征向量为其内的 item 的特征向量的平均，把它作为用户特征向量。

实验结果及总结

Parallel Recurrent Neural Network Architectures for Feature-rich Session-based Recommendations

RecSys 2016

这篇文章主要贡献：探究如何将 item 属性信息（如文本和图像）加入到 RNN 框架中，探究了几种融合 item 属性的模型框架。

Motivation (Why): Items typically have rich feature representations such as pictures and text descriptions that can be used to model the sessions.
Main Idea (What): Here we investigate how these features can be exploited in Recurrent Neural Network based session models using deep learning.
How:

模型架构

模型输入：item ID, Item features (texts and image)

模型输出：next click scores of each items

1. Baseline architectures: ID only, Feature only, Concatenated input

2. p-RNN architectures: Parallel, Parallel shared-W, Parallel interaction

96097baabb2a94b46eba0f6c0c7e3cf229c9a1df

实验结果及结论

Parallel 并行更新 item ID 和 feature 的模型达到最好的效果，Parallel shared-W 和 Parallel interaction 交互模型并没有好的效果，可能原因重复的序列信息加重了模型的训练负担。

e99d6d0d9abad23b9af0f9d9738e808cd865a503

Incorporating Dwell Time in Session-Based Recommendations with Recurrent Neural Networks

RecSys 2017

本文的贡献在于将用户在 session 中 item 上的停留时间长短考虑进去。

Motivation (Why): 用户在 session 中的 item 停留时间越长，越感兴趣。
Main Idea (What): We explore the value of incorporating dwell time into existing RNN framework for session-based recommendations by boosting items above the predefined dwell time threshold.
How:

模型架构

对于 session 中的一个序列 item 集合 x= { [x1,x2...xn] }，以及每个 item xi 的停留时间

实验结果

Personalizing Session-based Recommendations with Hierarchical Recurrent Neural Networks

RecSys 2017

本文的贡献在于提出一种层次化的 RNN 模型，相比之前的工作，可以刻画 session 中用户个人的兴趣变化，做用户个性化的 session 推荐。

Motivation (Why): 用户的历史信息反映了用户的兴趣爱好，应该在下一个 session 的推荐中考虑进去。
Main Idea (What): 提出一种层次化的 RNN 模型，可以解决 (1) session-aware recommenders：传递用户的历史兴趣爱好到下一个 session 中；(2) session-based recommenders：当用户没有历史记录时，对用户当前 session 进行建模。
How:

模型架构

用两个 GRU，Session-level GRU 和 User-level 的 GRU 分别刻画 session 信息和 user历史信息，模型架构图如下，对于一个用户的多个 sessions，当一个 session 结束时，用该 session 的输出作为当前的 user 的表示，并用来初始化下一个 session 的输入。

d1317dfad5e40cdec6d9f028f073df6746979e8e

数据集

Baseline

实验结果

When Recurrent Neural Networks meet the Neighborhood for Session-Based Recommendation

RecSys 2017

本文的贡献在于提出将 session 中的 RNN 模型，与 KNN 方法结合起来，能够提高推荐的效果。

Motivation (Why): 如果一个 item 在与当前 item 相似的 session 中出现，那么这个 item 出现的可能性更大。
Main Idea (What): 提出一种 Session-based kNN 算法。
How:

session-based 方法

找出与当前 session 最相近的 k most similar past sessions in the training data。

item i 在当前 session 中出现的概率是：

d1cbb5a5fe26beb45a93ebe9556391d6f0cb6a25

如果 item i 有出现在 k 个最相近的 session 中， ?tp=webp&wxfrom=5&wx_lazy=1 78c540067aba3027127bfc9f2408347fb201f035

结论：item 的共现信号 co-occurrence signals 可以用来预测 sequential patterns。

Improved Recurrent Neural Networks for Session-based Recommendations

DLRS 2016

本文的贡献在于提出将在 GRU4REC 中引入了四条优化方法。

Data augmentation（数据增强）

给定一个session的输入序列 [x1,x2...xn] , 可以产生多条训练数据，如（[x1,V(x2)], [x1,x2, V(x3)] ）如下图，可以增加训练数据。此外，用户可能出现误点击的，用 dropout 的方式来泛化数据，可以增强训练的鲁棒性。

a7bb38e1ba3f8fa14fe5720acf7ad49257565d5c

Model pre-training

在推荐中，对于 user 和 item 更新都很快的推荐场景，最近的信息更为重要，文本提出先利用历史所有数据预训练出一个模型，然后只选取最近的数据，以预训练得到的模型权重作为初始化参数，再训练一个最终模型。

Use of Privileged information

这是一个 generalized distillation framework。给定序列 [x1,x2...xr] 和对应 label ?tp=webp&wxfrom=5&wx_lazy=1

其中 L 为距离函数，V(xr) 是 xr 的标签。

Output embedding

直接预测 item 的 embedding 向量。使预测结果更具有泛化意义，相当于预测了用户 embedding 后的语义空间中兴趣表示，训练时定义的 loss 为输出层与该样本在 embedding 层的 cosine 相似度。

现有 session-based neural recommendation 论文对比如下：

原文发布时间为：2017-11-9

本文作者：白婷

本文来自云栖社区合作伙伴“PaperWeekly”，了解相关信息可以关注“PaperWeekly”微信公众号

推荐阅读

ip
为什么多数程序员难以成为架构师？

探讨80%的程序员为何难以晋升为架构师，涉及技术深度、经验积累和综合能力等方面。本文将详细解析Tomcat的配置和服务组件，帮助读者理解其内部机制。 ... [详细]

蜡笔小新 2024-11-14 03:39:46
string
Android异步处理系列文章四篇之三

Android异步处理一：使用Thread+Handler实现非UI线程更新UI界面Android异步处理二：使用AsyncTask异步更新UI界面Android异步处理三：Handler+Loope ... [详细]

蜡笔小新 2024-11-15 19:09:29
string
稀疏数组的高效存储与转换

稀疏数组是一种用于存储和处理大部分元素为零或相同值的数组的技术。通过记录非零元素的位置和值，稀疏数组可以显著减少存储空间和提高处理效率。 ... [详细]

蜡笔小新 2024-11-15 11:10:47
dll
嵌入式Linux工程师笔试题精选

本文整理了一份基础的嵌入式Linux工程师笔试题，涵盖填空题、编程题和简答题，旨在帮助考生更好地准备考试。 ... [详细]

蜡笔小新 2024-11-15 10:42:13
ip
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
string
Java高并发与多线程（二）：线程的实现方式详解

本文将深入探讨Java中线程的三种主要实现方式，包括继承Thread类、实现Runnable接口和实现Callable接口，并分析它们之间的异同及其应用场景。 ... [详细]

蜡笔小新 2024-11-12 14:31:23
string
如何在Java中使用DButils类

这期内容当中小编将会给大家带来有关如何在Java中使用DButils类，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。D ... [详细]

蜡笔小新 2024-11-12 13:46:11
shell
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
shell
解决Jenkins编译过程中ERROR: Failed to Parse POMs的问题

在使用Jenkins进行自动化构建时，有时会遇到“ERROR: Failed to parse POMs”的错误。本文将详细分析该问题的原因，并提供有效的解决方案。 ... [详细]

蜡笔小新 2024-11-15 18:17:00
js
h5调用本地摄像头和麦克风一

h5调用本地摄像头和麦克风一,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-15 05:01:35
js
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
string
SpringMVC 入门指南：快速上手 Java Web 开发

本文将带你快速了解 SpringMVC 框架的基本使用方法，通过实现一个简单的 Controller 并在浏览器中访问，展示 SpringMVC 的强大与简便。 ... [详细]

蜡笔小新 2024-11-13 14:22:01
string
Java DAO模式详解与代码示例

DAO（Data Access Object）模式是一种用于抽象和封装所有对数据库或其他持久化机制访问的方法，它通过提供一个统一的接口来隐藏底层数据访问的复杂性。 ... [详细]

蜡笔小新 2024-11-13 12:25:33
string
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
ip
应用链时代，详解 Avalanche 与 Cosmos 的差异

应用链时代，详解 Avalanche 与 Cosmos 的差异 ... [详细]

蜡笔小新 2024-11-13 09:37:19

止在雲端_495

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章