在上一篇文章中,我讲到了使用逻辑回归和梯度提升决策树组合的模型融合办法,用于 CTR 预估,我还满怀爱意地给这对组合起了个名字,叫做辑度组合,因为这对组合的确可以在很多地方帮到我们。
这对组合中,梯度提升决策树,也就是人们常说的 GBDT,所起的作用就是对原始的特征做各种有效的组合,一棵树一个叶子节点就是一种特征组合。
这大概就是逻辑回归的宿命吧,作为一个广义线性模型,在这个由非线性组成的世界里,唯有与各种特征组合办法精诚合作,才能活下去。
对逻辑回归最朴素的特征组合就是二阶笛卡尔乘积,但是你有没有想过这样暴力组合的问题所在。
如果把包含了特征两两组合的逻辑回归线性部分写出来,就是:
这和原始的逻辑回归相比,就多出来了后面那一大坨,特征两两组合那部分,也需要去学习对应的参数权重。
问题就是两两组合后非常有可能没有样本能够学习到 $w_{ij},不但没有样本可以用来学习到参数,而且在应用时,如果遇到了这样的组合,也就只能放弃,因为没有学到权重。
针对这个问题,就有了一个新的算法模型:因子分解机