FM算法(一)：算法理论（转载）

作者：Aaron Chen | 来源：互联网 | 2023-10-10 18:27

主要内容：动机FM算法模型FM算法VS其他算法一、动机在传统的线性模型如LR中，每个特征都是独立的，如果需要考虑特征与特征直接的交互作用，可能需要人工对特征进行交叉组合；非线性SV

主要内容：

动机

FM算法模型

FM算法VS 其他算法

一、动机

在传统的线性模型如LR中，每个特征都是独立的，如果需要考虑特征与特征直接的交互作用，可能需要人工对特征进行交叉组合；非线性SVM可以对特征进行kernel映射，但是在特征高度稀疏的情况下，并不能很好地进行学习；现在也有很多分解模型Factorization model如矩阵分解MF、SVD++等，这些模型可以学习到特征之间的交互隐藏关系，但基本上每个模型都只适用于特定的输入和场景。为此，在高度稀疏的数据场景下如推荐系统，FM（Factorization Machine）出现了。

下面所有的假设都是建立在稀疏数据的基础上，举个例子，根据用户的评分历史预测用户对某部电影的打分，这里的每一行对应一个样本，Feature vector x表示特征，Targer y表示预测结果。从下图可以看出，这是一个稀疏特征的例子，后面的相关内容会以此为例子进行说明。

特征中的前四列表示用户u（one-hot编码，稀疏），接着五列表示电影i（ont-hot编码，稀疏），再接下去五列表示用户u对电影i的打分（归一化特征），紧接着一列表示时间（连续特征），最后五列表示用户u对电影i打分前评价过的最近一部电影（one-hot编码，稀疏）

技术分享图片

二、FM算法模型

1、模型目标函数

二元交叉的FM（2-way FM）目标函数如下：

其中，w是输入特征的参数，是输入特征i,j间的交叉参数，v是k维向量。

前面两个就是我们熟知的线性模型，后面一个就是我们需要学习的交叉组合特征，正是FM区别与线性模型的地方。

技术分享图片

为什么要通过向量v的学习方式而不是简单的wij参数呢？

这是因为在稀疏条件下，这样的表示方法打破了特征的独立性，能够更好地挖掘特征之间的相关性。以上述电影为例，我们要估计用户A和电影ST的关系w(A&ST)以更好地预测y，如果是简单地考虑特征之间的共现情况来估计w(A&ST)，从已有的训练样本来看，这两者并没有共现，因此学习出来的w(A&ST)=0。而实际上，A和ST应该是存在某种联系的，从用户角度来看，A和B都看过SW，而B还看过ST，说明A也可能喜欢ST，说明A很有可能也喜欢ST。而通过向量v来表示用户和电影，任意两两之间的交互都会影响v的更新，从前面举的例子就可以看过，A和B看过SW，这样的交互关系就会导致v(ST)的学习更新，因此通过向量v的学习方式能够更好的挖掘特征间的相互关系，尤其在稀疏条件下。

2、模型的计算复杂度

可能有人会问，这样两两交叉的复杂度应该O(k*n^2)吧，其实，通过数学公式的巧妙转化一下，就可以变成O(kn)了。转化公式如下所示，其实就是利用了2xy = (x+y)^2 – x^2 – y^2的思路。

技术分享图片

3、模型的应用

FM可以应用于很多预测任务，比如回归、分类、排序等等。

1.回归Regression：y^(x)直接作为预测值，损失函数可以采用least square error；

2.二值分类Binary Classification：y^(x)需转化为二值标签，如0,1。损失函数可以采用hinge loss或logit loss；

3.排序Rank：x可能需要转化为pair-wise的形式如(X^a,X^b)，损失函数可以采用pairwise loss

4、模型的学习方法

前面提到FM目标函数可以在线性时间内完成，那么对于大多数的损失函数而言，FM里面的参数w和v更新通过随机梯度下降SGD的方法同样可以在线性时间内完成，比如logit loss，hinge loss，square loss，模型参数的梯度计算如下：

技术分享图片

技术分享图片这部分求和跟样本i是独立的，因此可以预先计算好。

5、模型延伸：多元交叉

前面提到到都是二元交叉，其实可以延伸到多元交叉，目标函数如下：（看起来复杂度好像很高，其实也是可以在线性时间内完成的）

技术分享图片

6、总结

前面简单地介绍了FM模型，总的来说，FM通过向量交叉学习的方式来挖掘特征之间的相关性，有以下两点好处：

1.在高度稀疏的条件下能够更好地挖掘数据特征间的相关性，尤其是对于在训练样本中没出现的交叉数据；

2.FM在计算目标函数和在随机梯度下降做优化学习时都可以在线性时间内完成。

三、FM算法 VS 其他算法

1、FM 对比 SVM

1）SVM

SVM是大家熟知的支持向量机模型，其模型原理在这里就不详述了。

SVM的线性模型函数表示为：

技术分享图片

其非线性形式可以通过核映射kernel mapping的方式得到，如下所示：

技术分享图片

其中多项式核表示为：

技术分享图片

当d=2时为二次多项式，表示为：

技术分享图片

多项式核映射后的模型函数表示为：

技术分享图片

2）FM 对比 SVM

看到上面的式子，是不是觉得跟FM特别像？SVM和FM的主要区别在于，SVM的二元特征交叉参数是独立的，如wij，而FM的二元特征交叉参数是两个k维的向量vi、vj，这样子的话，和就不是独立的，而是相互影响的。

为什么线性SVM在和多项式SVM在稀疏条件下效果会比较差呢？线性svm只有一维特征，不能挖掘深层次的组合特征在实际预测中并没有很好的表现；而多项式svn正如前面提到的，交叉的多个特征需要在训练集上共现才能被学习到，否则该对应的参数就为0，这样对于测试集上的case而言这样的特征就失去了意义，因此在稀疏条件下，SVM表现并不能让人满意。而FM不一样，通过向量化的交叉，可以学习到不同特征之间的交互，进行提取到更深层次的抽象意义。

此外，FM和SVM的区别还体现在：1）FM可以在原始形式下进行优化学习，而基于kernel的非线性SVM通常需要在对偶形式下进行；2）FM的模型预测是与训练样本独立，而SVM则与部分训练样本有关，即支持向量。

2、FM 对比其他分解模型Fac torization Model

这部分不详述，其他分解模型包括Matrix factorization (MF)、SVD++、PITF for Tag Recommendation、Factorized Personalized Markov Chains (FPMC)，这些模型都只在特定场景下使用，输入形式也比较单一（比如MF只适用于categorical variables），而FM通过对输入特征进行转换，同样可可以实现以上模型的功能，而且FM的输入可以是任意实数域的数据，因此FM是一个更为泛化和通用的模型。详细内容参考：https://www.csie.ntu.edu.tw/~b97053/paper/Rendle2010FM.pdf

四、参考文献

1、《Factorization Machines》

分类: 机器学习Machine Learning

推荐阅读

jsp
UVALive 8201 - BBP 公式计算圆周率

在1995年，Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后，Bailey 和 Borwein 在他们的论文中发表了这一发现，这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]

蜡笔小新 2024-11-21 18:32:57
jsp
如何将 Git 提交编辑器从 Nano 更改为 Vim

默认情况下，Git 使用 Nano 编辑器进行提交信息的编辑，但如果您更喜欢使用 Vim，可以通过简单的配置更改来实现这一变化。本文将指导您如何通过修改全局配置文件来设置 Vim 作为默认的 Git 提交编辑器。 ... [详细]

蜡笔小新 2024-11-22 14:08:35
go
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
jsp
在Notepad++中配置Markdown语法高亮及实时预览功能

本文详细介绍了如何在Notepad++中配置Markdown语法高亮和实时预览功能，包括必要的插件安装和设置步骤。 ... [详细]

蜡笔小新 2024-11-22 13:03:49
jsp
网络流24题——试题库问题

题目描述：假设一个试题库中有n道试题。每道试题都标明了所属类别。同一道题可能有多个类别属性。现要从题库中抽取m道题组成试卷。并要求试卷包含指定类型的试题。试设计一个满足要求的组卷算 ... [详细]

蜡笔小新 2024-11-22 11:33:55
jsp
为何Compose与Swarm之后仍有Kubernetes的诞生？

探讨在已有Compose和Swarm的情况下，Kubernetes是如何以其独特的设计理念和技术优势脱颖而出，成为容器编排领域的领航者。 ... [详细]

蜡笔小新 2024-11-22 09:26:11
go
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
jsp
我的读书清单（持续更新）

我的读书清单（持续更新）201705311.《一千零一夜》2006（四五年级）2.《中华上下五千年》2008（初一）3.《鲁滨孙漂流记》2008（初二）4.《钢铁是怎样炼成的》20 ... [详细]

蜡笔小新 2024-11-21 13:01:23
jsp
深入理解C++中的自定义String类实现

本文探讨了一种常见的C++面试题目——实现自己的String类。通过此过程，不仅能够检验开发者对C++基础知识的掌握程度，还能加深对其高级特性的理解。文章详细介绍了如何实现基本的功能，如构造函数、析构函数、拷贝构造函数及赋值运算符重载等。 ... [详细]

蜡笔小新 2024-11-22 19:21:22
jsp
CentOS 服务器自定义密码策略

随着Linux操作系统的广泛使用，确保用户账户及系统安全变得尤为重要。用户密码的复杂性直接关系到系统的整体安全性。本文将详细介绍如何在CentOS服务器上自定义密码规则，以增强系统的安全性。 ... [详细]

蜡笔小新 2024-11-22 19:15:42
jsp
二维码的实现与应用

本文介绍了二维码的基本概念、分类及其优缺点，并详细描述了如何使用Java编程语言结合第三方库（如ZXing和qrcode.jar）来实现二维码的生成与解析。 ... [详细]

蜡笔小新 2024-11-21 17:10:15
jsp
IC卡操作功能实现

本文介绍了如何通过C#语言调用动态链接库（DLL）中的函数来实现IC卡的基本操作，包括初始化设备、设置密码模式、获取设备状态等，并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]

蜡笔小新 2024-11-21 11:02:19
jsp
深入理解C++构造函数

本文详细介绍了C++中的构造函数，包括其定义、特点以及如何通过构造函数进行对象的初始化。此外，还探讨了转换构造函数的概念及其在不同情境下的应用，以及如何避免不必要的隐式类型转换。 ... [详细]

蜡笔小新 2024-11-21 10:41:14
jsp
java语言基础数据类型：详解

数据类型--char一、char1.1char占用2个字节char取值范围：【0~65535】char采用unicode编码方式char类型的字面量用单引号括起来char可以存储一 ... [详细]

蜡笔小新 2024-11-21 08:47:17
jsp
项目风险管理策略与实践

本文探讨了项目风险管理的关键环节，包括风险管理规划、风险识别、风险分析（定性和定量）、风险应对策略规划及风险控制。旨在通过系统的方法提升项目成功率，减少不确定因素对项目的影响。 ... [详细]

蜡笔小新 2024-11-20 20:52:24