前言:这是机器学习的一个重要应用领域,就像淘宝给你推荐商品一样
一、问题规划(电影评分)
1.1 符号表示
表示用户的数量,下标表示具体的第几个用户
表示电影的数量,下标表示具体的第几部电影
为1时,表示用户给电影评价了
用户对电影评价得分,为0-5表示
1.2 问题定义
给出,然后预测用户对自己还没有评价的电影可能会给出的评分(就是图里面的问号部分),了解用户可能会喜欢的电影并推荐
如上图所示,=4,=5
二、基于内容的推荐方法
2.1 对电影类型分类
对这5部电影分类,大致可以分为爱情片和动作片,所以可以建立两个参数衡量电影为爱情片和动作片的程度。结果如下:
(图里面不包括这一项,因为它总是1)
然后建立第一部电影的特征向量为:以此类推
2.2
然后对于每一个用户,都需要学习参数,那么用户对电影的评分就是
2.3
表示用户j评价了电影的数量(no.of movies rated by user j)
目标:学习参数(这里加入了正则化项)
三、协同过滤
1、定义
相比于基于内容的学习方法,协同过滤不需要用户选择好特征,它会自动选择需要的特征
2、过程
已知每个用户的,那么就可以根据用户对每部电影的评分推测电影的爱情程度,动作程度,即
3、推广
4、与基于内容的综合
最后不断迭代
5、已知更好的协同过滤算法
定义一个新的目标优化函数(代价函数),实际上就是把上面两种优化函数结合在一起,不存在了,同时解出
总结:
6、均值归一化
用途:如果新来一个用户,他没有评分过,如何推荐电影呢?
然后减去均值,使得均值为0
再用这个Y学习参数
预测新用户的评分实际上是平均分了
这是观看吴恩达网易云机器学习系列做的笔记
图片来源于视频课件