推荐系统基于用户的协同过滤算法

1. 概述

和搜索引擎一样&＃xff0c;推荐系统是为了帮助人们更快速的获得对自己有用的信息。

和搜索引擎不同&＃xff0c;推荐系统是人们被动的获取&＃xff0c;由系统根据用户行为或其他的信息推荐给用户的&＃xff0c;儿搜索引擎是用户主动输入关键字获取的。

从某种意义上说&＃xff0c;搜索引擎和推荐系统是互相补充的。

而推荐算法的本质是通过一定的方式将用户和物品联系起来&＃xff0c;从而有效的给用户推荐本身感兴趣或需要但是没有发现的物品。

个性化推荐系统的应用场景&＃xff1a;电子商务&＃xff08;据说Amazon 35%的销售额来自推荐系统&＃xff09;、电影和视频网站、个性化音乐网络电台、社交网络、个性化阅读、基于位置的服务、个性化邮件、个性化广告&＃xff08;上下文广告、搜索广告、个性化展示广告&＃xff09;。

一个推荐系统的评判标准&＃xff1a;用户满意度、预测准确度、覆盖率、多样性、新颖性、惊喜度、信任度、实时性、健壮性、商业目标。

2. 主要推荐系统算法

基于邻域的方法、隐语义模型、基于图的随机游走算法。在这些方法中&＃xff0c;最著名、在业界得到最广泛应用的算法是基于邻域的方法。

基于邻域的方法主要包括&＃xff1a;基于用户的协同过滤算法&＃xff08;给用户推荐和他兴趣相似的其他用户喜欢的物品&＃xff09;和基于物品的协同过滤算法&＃xff08;给用户推荐和该用户喜欢的物品属性类似的其他物品&＃xff09;

下面主要说明一下第一种算法

基于用户的协同过滤算法

该算法的主要步骤&＃xff1a;1、找到与该用户兴趣相似的用户集&＃xff1b;2、找到这个集合中的用户喜欢的但是没有听说过的物品推荐给目标用户。

第一步&＃xff1a;计算用户的兴趣相似度

可以通过以下公式计算&＃xff1a;

其中u,v表示两个用户&＃xff0c;N(u)表示用户u曾经有过正反馈的物品集合&＃xff1b;N(v)表示用户v曾经有过正反馈的物品集合。

算法的Python实现如下&＃xff1a;

def User_Similarity(train):W&＃61;dict()for u in train.keys():for v in train.keys():if u &＃61;&＃61; v: continue; W[u][v] &＃61; len(train[u],train[v])W[u][v] /&＃61; math.sqrt(len(train[u]) * len(train[v]) * 1.0)

可以发现该代码的时间复杂度是O(n*n)&＃xff0c;并且大多数用户的兴趣相似度可能位0&＃xff0c;即|N(u)∩N(v)| &＃61; 0&＃xff0c;所以该代码还是可以优化的。

我们可以先计算出|N(u)∩N(v)| ≠ 0的用户对(u,v)然后除以余弦相似度。这里可以使用倒排&＃xff0c;将数据排列成物品到用户的倒排表&＃xff0c;物品后链接的是与对该物品感兴趣的用户链表&＃xff0c;然后循环统计每个物品用户链表的用户相似度即可。

算法的Python代码如下&＃xff1a;

#!/usr/bin/env python # coding&＃61;utf-8 def UserSimilarity(train):#建立倒排表item_users &＃61; dict()for u,items in train.items():for i in item.keys():if i not in item_users:items_users[i] &＃61; set()item_users[i].add(u)#item_users即为物品到用户的倒排表#计算用户之间的相关度C &＃61; dict()#任意用户之间的相关度N &＃61; dict()#用户正反馈物品的数目for i ,users in item_users:for u in users:N[u] &＃43;&＃61; 1for v in users:if u &＃61;&＃61; v:continue:C[u][v] &＃43;&＃61; 1#最后计算结果矩阵W &＃61; dict()for u ,related_users in C.items():for v,cuv in related_users:W[u][v] &＃61; cuv / math.sqrt(N[u]* N[v]*1.0) return W

物品-用户倒排表

第二步&＃xff1a;推荐和他相似的K个用户喜欢的物品

其中&＃xff1a;p(u,i)用户u对物品i的兴趣度&＃xff1b;

S(u,K)包含和用户u兴趣最相近的K的用户&＃xff1b;

Wuv用户u和用户v的兴趣相似度&＃xff1b;

Rvi用户v对物品i的兴趣度&＃xff1b;

算法的Python代码实现&＃xff1a;

def Recommend(user,train,W):rank &＃61; dict()interacted_items &＃61; train[user]for v , wuv in sort(W[u].items,key &＃61; itemgetter(1),reverse &＃61; True)[0:k]:for i ,rvi in train[v].items:if i in interacted_items:continuerank[i] &＃43;&＃61; wuv * rvireturn rank

推荐系统基于用户的协同过滤算法

第七天深入学习DGL框架：官方文档指导下的数据集下载与预处理技巧

（7）Python爬虫——爬取豆瓣电影Top250

在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Java 并发编程：深入解析 AtomicInteger 和 CAS 无锁算法

Python 使用 DOM 和 SAX 解析 XML 的应用实例

PHP 对象生命周期与内存管理

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

开机自启动的几种方式

使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

InfluxDB、collectd与Grafana的详细安装与配置指南

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

机器学习的持续探索与进展

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元