热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

长短期记忆网络_AAAI2020|MAGNN记忆增强的图神经网络序列推荐方法

「MA-GNN」是华为诺亚实验室发表在「AAAI2020」上的序列推荐工作。主要利用记忆增强的图神经网络来捕获并融合短期和长期兴趣,应用于序列推荐中。下面仍然围绕5「

f8a5d1964727d50a6844b1e039318a4f.png

「MA-GNN」 是华为诺亚实验室发表在 「AAAI 2020」 上的序列推荐工作。主要利用记忆增强的图神经网络来捕获并融合短期和长期兴趣,应用于序列推荐中。下面仍然围绕5「tion」原则,即:Motiva「tion」, Contribu「tion」, Solu「tion」, Evalua「tion」, Summariza「tion」展开介绍。

注:这是GNN序列推荐系列的第二篇文章:MA-GNN|AAAI2020。第一篇文章GCE-GNN|SIGIR2020请参见:SIGIR2020|GCE-GNN基于全局上下文增强的图神经网络序列推荐方法。

Motivation

传统的序列推荐方法主要建模的是session-level的短期序列,仅能够捕获蕴含在用户近期交互物品中的短期偏好,缺乏对用户长期偏好的挖掘。因此,本文的主要动机就是考虑用户长期的交互序列,希望能够从中挖掘出用户长期稳定的偏好。除此之外,作者还希望能够显式地建模物品与物品之间的共现关系。为此,作者提出了几种方法来分别捕获用户的短期兴趣,长期兴趣以及物品之间的共现关系,并融合这些因素进行打分和推荐。

  • 短期兴趣:基于短期交互序列中物品之间的转移关系图,使用GNN来捕获用户的短期兴趣。
  • 长期兴趣:使用带注意力机制的记忆网络来捕获用户的长期兴趣。
  • 共现关系:使用双线性函数来显式建模物品之间的共现关系。

Contribution

  • 为了捕获用户的短期兴趣和长期兴趣,文章提出了一种记忆增强的图神经网络来捕获短期上下文信息和长距离依赖。
  • 为了有效地融合短期兴趣和长期兴趣,文章采用了一种门控机制来自适应地融合两种兴趣表征。
  • 为了显式建模物品之间的共现关系,文章采用了双线性函数来捕获物品之间相关性。
  • 在五个真实的数据集上取得了state-of-the-art的效果。

Solution

先从总体上介绍下整个方法。整个方法实际上很像矩阵分解那一套框架。只不过分解的时候考虑了短期兴趣和长期兴趣。这里头最重要的是理解「输入序列数据怎么规整成矩阵分解的形式,即point-wise分解和打分」 (比如:用户嵌入和物品嵌入点积)。

原始的输入数据是user-level的序列。,由于是user-level的序列,每条序列长度很长,如果直接建模的话,总的样本量正比于用户数,相对较少。因此需要对序列进行切割来做「数据增强」「长短期序列」区分。可以通过在user-level的序列数据上做窗口滑动来增强,窗口「内部的子序列」构成了「短期序列」,从窗口「左侧端点开始向左到起始点」的子序列构成了「长期序列」,从窗口「右侧端点」开始向右的子序列构成了「目标序列」。这里头有好几个超参数。「滑动窗口的大小」(即:决定了短期序列的长度),滑动窗口的左端点起始值 「(即:决定了长期序列长度的最小值),以及」目标序列的长度  。

形式化地,增强后的每个sample有3段子序列,即:,是滑动窗口的左侧端点,则:是长期交互序列,是滑动窗口内部的长度为短期交互序列,是大小为的目标序列。

则,本文的问题是输入长期序列和短期序列,来输出用户接下来会感兴趣的个物品,并在目标序列上进行评估。命中越多目标序列中的物品,说明模型泛化性越好。所谓的长短期,实际上就是从物品交互时间的久远来衡量,最近交互的若干个物品构成了短期交互序列,再之前的交互构成了长期交互序列。

在解决序列推荐方法上,除了物品和序列「表征的过程」有所差异之外,目前主流的方法都是利用物品表征和用户表征,来预测next item,即:预测所有的个物品上的概率分布,推荐个概率最大的,实际上是个多分类问题。但是这篇文章将多分类转成了二分类问题,即:将「目标序列」中的物品和用户作配对,转化成 正样本对,这样就可以使用矩阵分解的方式来拟合分数。此外,此处采样了负样本,即:三元组,是采样的负样本,最后用pair-wise的BPR损失来训练。总之,「输入」的用户「短期序列和长期序列」都只是为了获取某种刻画「用户兴趣维度」的表征,并「基于多样化的用户兴趣表征来多维度地联合预测分数」

因此,问题的关键是如何捕获输入的短期和长期序列中蕴含的用户偏好。先总体看下该方法的架构示意图。

89018078f815316246970395f65b4205.png

MA-GNN系统架构

如上图所示,最左侧是初始的兴趣表征模块,包含了用户通用兴趣表征,短期序列中的物品表征和长期序列中的物品表征。中间是兴趣建模模块,即:如果对初始的表征进行处理和融合;右侧是基于建模得到的兴趣表征进行分数的预测,包括了3个分数来源,通用兴趣贡献分,长短期融合兴趣贡献分以及物品共现分。

其中,是用户的通用兴趣表征,是目标物品的初始表征,是用户的长短期兴趣融合表征,最后一项是目标物品和用户短期交互序列中的物品的共现分数。这三项分别对应着通用兴趣建模、短期和长期兴趣建模以及物品共现建模。下面依次来介绍。

通用兴趣建模

输入的短期序列和长期序列都记录着产生该行为序列的用户,因此作者在做序列建模的时候,将该用户也考虑进去了。作者采用随机初始化的来表征用户静态和通用的的兴趣。最后在预测层预测分数的时候,采用了简单矩阵分解策略,即:,是目标预测物品的embedding(实际上就是目标序列集合中的物品),该分数即:通用兴趣贡献分。

短期兴趣建模

输入是短期序列,输出是蕴含在短期序列中用户的兴趣表征,是short-term的缩小。如图所示,左下角的部分。作者采用了两层的GNN网络来捕获蕴含在序列中的局部结构信息,并形成用户短期兴趣表征。为了能够用GNN来建模,需要将序列转成session graph。策略是,短期序列中的每个物品和其后面的3个物品做连接,并对形成的邻接矩阵按照行做归一化。如下图所示:

dc470b5f6f1c9f37f2375ffc745f27be.png

session-graph构造方法

「信息传播和聚合」:接着,基于该「邻接矩阵」来进行邻域信息传播和汇聚。即:

是从邻域传播的信息;和自身做一个拼接(),再过一个非线性变换。

上述得到了序列中每个物品的表征后,需要形成用户的短期兴趣表征。先mean pooling得到短期序列表征,再和用户的「通用表征」做一个拼接并过一层非线性变换融合。即:

长期兴趣建模

这个是本文主要的亮点所在,如果对多维度注意力机制和带记忆网络的注意力机制不太熟悉的话,强烈建议先阅读我之前的一篇博客:深度学习中的注意力机制调研(http://xtf615.com/2019/01/06/attention/)。这部分的输入是长期序列,输出是用户的「长期兴趣表征」。为了能够捕获长期兴趣,通常可以采用「外部记忆单元」来存储用户随时间变化的动态偏好,但是如果为每个用户都存储这样的偏好,会耗费很大的存储空间,而且通过这种方式捕获到的兴趣可能和通用兴趣相似。为了解决这些问题,作者采用了一个记忆网络来存储「所有用户共享的隐兴趣表征」,每种隐单元都代表着某种特定的用户隐兴趣,给定用户长期交互序列,我们可以学习到多种「不同兴趣融合」的用户长期兴趣表征。记长期序列中每个物品的表征形成的表征矩阵为:,即:第列为长期序列中第个物品的表征向量。记忆网络中存储着所有用户「共享的隐兴趣表征」,针对每一个「用户」以及其「长期交互序列」,我们需要为该用户生成与其兴趣匹配的query embedding ,然后根据该query embedding去记忆网络中检索有用的隐兴趣表征,从而形成该用户特定的长期兴趣表征。这里面最重要的就是query embedding的产生,作者采用了多维度的注意力机制。具体而言,

  • 首先模仿Transformer给序列中每个item引入了位置语义信息,为sinusoidal positional encoding function
  • 计算用户通用兴趣表征和长期序列「感知」的多维度注意力权重矩阵MDAtt,即:,

其中,是可学习的注意力参数,是外积操作。上述注意力机制考虑了用户的「通用兴趣表征」「长期行为序列」,因此该注意力是general-interest and long-term sequence 「aware」的。多维度注意力机制和通常的注意力机制其实差不太多。从语义上而言,每一行向量从某个语义角度衡量了长期行为序列中每个物品在该语义上的权重值,softmax应该是按照每行来做的,即:求每个序列中每个物品在该语义下的概率分布;基于该行向量所代表的注意力概率分布对长期序列做加权汇聚,可以得到在该语义上的用户query表征;共行,则会形成个用户query表征向量,即形成表征矩阵。

  • 具体而言,根据上述的注意力权重矩阵来对用户长期行为序列做一个聚合,形成表征矩阵。
  • 对上述表征矩阵按照「行方向」(把h维度归约掉)做mean pooling来形成最终的用户query embedding,。

实际上从语义上来讲,相当于将不同语义汇聚到的query embedding通过mean pooling汇聚在一起形成最终的query embedding。

总之,通过上述步骤,就能够形成「用户通用兴趣和长期行为序列感知」的检索向量。接下来就是根据该检索向量去记忆网络中检索出和该用户兴趣就相关的记忆,从而形成用户的长期兴趣表征。

记忆网络的的Key和Value矩阵分别记为:和,每一列都代表着某个维度下,所有用户共享的「隐兴趣表征向量」。因此,需要计算用户的query embedding和每一种隐兴趣表征的亲和度值,并转成概率分布。基于该概率分布对所有的隐兴趣表征(列向量)做加权汇聚。最后做个skip-connection,

长短期兴趣融合

使用门控机制来融合短期兴趣和长期兴趣。这里头的做法借鉴了LSTM/GRU,实际上和SR-GNN做结点信息更新的时候的策略是类似的,不作赘述。唯一要提的点就是,这里头实际上可以直接融合长短期序列表征和,但是作者实际用的时候融合的是,用户长期交互序列表征以及。可能是因为中融入了通用兴趣表征,而最后预测分数的时候,通用兴趣表征是单独作为一项贡献分的,再融合进长短期兴趣表征显得冗余。

做法很简单,门控的输出值是近期交互行为、通用兴趣表征、长期兴趣表征感知的,

基于该门控值进行融合,得到的融合后的兴趣表征为:

物品共现建模

显式地对用户短期交互过的物品和目标物品做共现建模,采用了双线性函数:

是可学习的物品相关性矩阵。是短期交互序列中的物品的初始表征,是目标物品。

最后用BPR Loss来学习。不做赘述。

Evaluation

实验主要包括几个部分,

对比实验(方法包括:BPRMF,GRU4Rec,GRU4Rec+,GC-SAN,Caser,SASRec,MARank),居然没有选SR-GNN(个人认为虽然GC-SAN论文中战胜了SR-GNN,但是本人在很多实践中发现SR-GNN比GC-SAN好)。

d88973c806fb626b394e46e53e570d26.png

消融实验:主要考察了通用兴趣,通用兴趣+短期兴趣,通用兴趣+短期兴趣+长期兴趣+gating长短期融合,通用兴趣+短期兴趣+长期兴趣+concat长短期融合,通用兴趣+短期兴趣+长期兴趣+GRU长短期融合。

ee8aed5b71a96d1dfe9f1e991f871187.png

(3)和(6)对比可以看出共现建模的好处;(1)和(2)对比看出短期兴趣建模的好处;(3)和(4)和(5)的结果说明gating机制的有效性,但是这个结果太不可思议了,gating比concat以及GRU好这么多?gating和GRU的差异主要就是有没有用吧?为了公平性,可以直接用到GRU里面来对比的。对此表示疑惑。

记忆单元的可视化: 验证每个记忆单元是否可以表示某种特定的兴趣。作者在MovieLens上做了case study。作者随机选了某个用户以及他观看过的电影,用其观看的电影直接作为query embedding,去计算在memory network上的注意力分数,即。期望观察到的效果是,给定不同的电影query embedding,注意力分数分布不一样,在类似的电影上,某些维度的注意力分数也应该类似。

187512740a19a4dea5d54da7bd3cb989.png

可以看到有三部Three Colors的电影的注意力分数分布挺近似的。DIe Hard是惊悚片,和其他的分布不一样。

这种可视化应该是目前论文写作的标配。

Summarization

这篇文章总体上有一些借鉴的地方。全文最大的亮点在于长期兴趣的建模。基于长期行为序列来构造query embedding,然后去memory network中检索有用的兴趣。这种长期兴趣的建模范式可以借鉴到日常工作优化中。但是缺点是长期序列长度可能比较长,多维度注意力机制可能复杂度相对高一些。但是,另一方面,这篇文章创新度一般,主要是一些已有的机制的叠加和尝试,是否真正有效还有待实践和验证。

References

AAAI 2020:Memory Augmented Graph Neural Networks for Sequential Recommendation


由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方"AINLP",进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心4061d94a9ceac477cdb92e1ce911b108.png

欢迎加入图神经网络交流群进群请添加AINLP小助手微信 AINLPer(id: ainlper),备注图神经网络55f99436182b3304fad92aceacdb742a.png

推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。

c04466e7fdaaf2c17e72035be9f07c1d.png

阅读至此了,分享、点赞、在看三选一吧?




推荐阅读
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • 基于OpenCV的图像拼接技术实践与示例代码解析
    图像拼接技术在全景摄影中具有广泛应用,如手机全景拍摄功能,通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法,并提供了示例代码解析,帮助读者深入理解该技术的实现过程。 ... [详细]
  • 如何使用 net.sf.extjwnl.data.Word 类及其代码示例详解 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 单片微机原理P3:80C51外部拓展系统
      外部拓展其实是个相对来说很好玩的章节,可以真正开始用单片机写程序了,比较重要的是外部存储器拓展,81C55拓展,矩阵键盘,动态显示,DAC和ADC。0.IO接口电路概念与存 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 每日前端实战:148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果
    通过点击页面右侧的“预览”按钮,您可以直接在当前页面查看效果,或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性,观众可以实时调整代码并观察变化。访问以下链接体验完整效果:https://codepen.io/comehope/pen/yRyOZr。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 探索聚类分析中的K-Means与DBSCAN算法及其应用
    聚类分析是一种用于解决样本或特征分类问题的统计分析方法,也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分,适用于球形分布的数据集;而DBSCAN算法则基于密度进行聚类,能够有效识别任意形状的簇,并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析,本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 在Python编程中,掌握高级技巧对于提升代码效率和可读性至关重要。本文重点探讨了生成器和迭代器的应用,这两种工具不仅能够优化内存使用,还能简化复杂数据处理流程。生成器通过按需生成数据,避免了大量数据加载对内存的占用,而迭代器则提供了一种优雅的方式来遍历集合对象。此外,文章还深入解析了这些高级特性的实际应用场景,帮助读者更好地理解和运用这些技术。 ... [详细]
  • 视觉图像的生成机制与英文术语解析
    近期,Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机(MLP)在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制,并解析了相关技术术语,为理解视觉图像生成提供了新的视角和方法。 ... [详细]
  • 表面缺陷检测数据集综述及GitHub开源项目推荐
    本文综述了表面缺陷检测领域的数据集,并推荐了多个GitHub上的开源项目。通过对现有文献和数据集的系统整理,为研究人员提供了全面的资源参考,有助于推动该领域的发展和技术进步。 ... [详细]
author-avatar
荡平三界_713
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有