热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

R开发:协调过滤推荐

set.seed(1234)#加载数据包library(“recommenderlab”)#构造数据运用recommenderlab包实现协同过滤推荐,其数据类型采用S4类构造,需

set.seed ( 1234 )

#加载数据包

library ( “recommenderlab” )

#构造数据运用recommenderlab包实现协同过滤推荐,其数据类型采用S4类构造,需通过as()函数转为raringMatrix类型。

val1<- matrix ( sample ( c ( as.numeric ( 0 : 5 ) ,NA ) ,50 ,replace = TRUE ,prob = c ( rep ( .4 / 6 , 6 ) , .6 ) ) ,ncol = 10 , dimnames = list ( user = paste ( &#8220;u&#8221; ,1 : 5 ,sep = &#8221; ) ,item = paste ( &#8220;i&#8221; ,1 : 10 ,sep = &#8221; ) ) )

val2 <- as ( val1, &#8220;realRatingMatrix&#8221; ) 

《R开发:协调过滤推荐》

数据转换

val3<- normalize ( val2 )

#二元分类转换,normalize()函数进行标准化处理,标准化的目的是为了去除用户评分的偏差

val4 <- binarize ( val3 , minRating = 4 )

val5 <- as ( val4 , &#8220;matrix&#8221; )

《R开发:协调过滤推荐》

数据可视化

接下来,我们采用MovieLense数据集,

data ( MovieLense )

key1 <- sample ( MovieLense , 943 , replace = F )

image ( MovieLense )

《R开发:协调过滤推荐》

hist ( getRatings ( normalize ( MovieLense ) ) , breaks = 100 )

《R开发:协调过滤推荐》

hist ( rowCounts ( key1 ) , breaks = 50 )

《R开发:协调过滤推荐》

建立模型

对于realRatingMatrix有六种方法:IBCF(基于物品的推荐)、UBCF(基于用户的推荐)、PCA(主成分分析)、RANDOM(随机推荐)、SVD(矩阵因子化)、POPULAR(基于流行度的推荐)

建立协同过滤推荐算法模型,主要运用recommender(data=ratingMatrix,method,parameter=NULL)函数,getModel()可查看模型参数

key1_recom <- Recommender (key1 , method = &#8220;IBCF&#8221; )

key1_popul <- Recommender ( key1, method = &#8220;POPULAR&#8221; )

#查看模型方法

names ( getModel ( key1_recom ) )


《R开发:协调过滤推荐》

模型预测

TOP-N预测

对模型预测可运用predict()函数,在此分别以TOP-N预测及评分预测为例,预测第940-943位观影者的评分情况。n表示最终为TOP-N的列表推荐,参数type = &#8220;ratings&#8221;表示运用评分预测观影者对电影评分,模型结果均需转为list或矩阵表示

pred <- predict ( key1_popul ,key1 [ 940 : 943,] , n = 5 )

as ( pred , &#8220;list&#8221; )

《R开发:协调过滤推荐》

#top-N为有序列表,抽取最优推荐子集

pred3 <- bestN ( pred , n = 3 )

as ( pred3 , &#8220;list&#8221; )

《R开发:协调过滤推荐》

#评分预测

rate <- predict ( key1_popul , key1 [ 940 : 943 ] , type = &#8220;ratings&#8221; )

as ( rate , &#8220;matrix&#8221; ) [ , 1 : 5 ]


《R开发:协调过滤推荐》

预测模型评价

评分预测模型评价

eva <- evaluationScheme (key1 [ 1 : 800 ] , method = &#8220;split&#8221; , train = 0.9,given = 15)

method=&#8221;split&#8221;&train=0.9为按90%划分训练测试集合,given为评价的类目数

r_eva1<- Recommender ( getData ( eva , &#8220;train&#8221; ) , &#8220;UBCF&#8221; )

p_eva1<- predict ( r_eva1 , getData ( eva, &#8220;known&#8221; ) , type = &#8220;ratings&#8221; )

r_eva2 <- Recommender ( getData ( eva, &#8220;train&#8221; ) , &#8220;IBCF&#8221; )

p_eva2 <- predict ( r_eva2 , getData ( eva, &#8220;known&#8221; ) , type = &#8220;ratings&#8221; )

c_eva1 <- calcPredictionAccuracy ( p_eva1 , getData ( eva , &#8220;unknown&#8221; ) )

c_eva2 <- calcPredictionAccuracy ( p_eva2 , getData ( eva , &#8220;unknown&#8221; ) )

error <- rbind ( c_eva1 , c_eva2 ) 

rownames ( error ) <- c ( &#8220;UBCF&#8221; , &#8220;IBCF&#8221; )

计算预测模型的准确度

《R开发:协调过滤推荐》

TOP-N预测模型评价

通过4-fold交叉验证方法分割数据集,运用evaluate()进行TOP-N预测模型评价,评价结果可通过ROC曲线及准确率-召回率曲线展示:

#4-fold交叉验证

tops <- evaluationScheme ( key1 [ 1 : 800 ] , method = &#8220;cross&#8221; , k = 4 , given = 3 ,goodRating = 5 )

results <- evaluate ( tops , method = &#8220;POPULAR&#8221; , type = &#8220;topNList&#8221; ,n = c ( 1 , 3 , 5 , 10 ) )

#获得混淆矩阵

getConfusionMatrix ( results ) [ [ 1 ] ]

avg ( results )

《R开发:协调过滤推荐》

推荐算法的比较

除了对预测模型进行评价,还可以对不同推荐算法进行比较。可首先构建一个推荐算法列表,通过ROC曲线、、准确率-召回率曲线或RMSE直方图进行比较

TOP-N算法比较

set.seed ( 2016 )

scheme <- evaluationScheme ( key1 , method = &#8220;split&#8221; , train = 0.9 , k = 1 , given = 10 , goodRating = 5 )

#构建不同算法模型

results <- evaluate ( scheme ,test_data ,n = c ( 1 ,3 ,5 ,10 ,15 ,20 ) )

#模型比较#ROC曲线

plot ( results , annotate = c ( 1 , 3 ) , legend = &#8220;bottomright&#8221; )

#准确率-召回率曲线

plot ( results , &#8220;prec/rec&#8221; , annotate = c ( 2 , 3 , 4 ) , legend = &#8220;topleft&#8221; )

预测评分算法比较

results2 <- evaluate ( scheme , algorithms , type = &#8220;ratings&#8221; )

plot ( results2 , ylim = c ( 0 , 20 ) )


推荐阅读
  • 本文探讨了如何使用Scrapy框架构建高效的数据采集系统,以及如何通过异步处理技术提升数据存储的效率。同时,文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]
  • Hadoop MapReduce 实战案例:手机流量使用统计分析
    本文通过一个具体的Hadoop MapReduce案例,详细介绍了如何利用MapReduce框架来统计和分析手机用户的流量使用情况,包括上行和下行流量的计算以及总流量的汇总。 ... [详细]
  • Excel技巧:单元格中显示公式而非结果的解决方法
    本文探讨了在Excel中如何通过简单的方法解决单元格显示公式而非计算结果的问题,包括使用快捷键和调整单元格格式两种方法。 ... [详细]
  • 本文介绍了如何使用 Python 的 Pyglet 库加载并显示图像。Pyglet 是一个用于开发图形用户界面应用的强大工具,特别适用于游戏和多媒体项目。 ... [详细]
  • Gradle 是 Android Studio 中默认的构建工具,了解其基本配置对于开发效率的提升至关重要。本文将详细介绍如何在 Gradle 中定义和使用共享变量,以确保项目的一致性和可维护性。 ... [详细]
  • 视觉Transformer综述
    本文综述了视觉Transformer在计算机视觉领域的应用,从原始Transformer出发,详细介绍了其在图像分类、目标检测和图像分割等任务中的最新进展。文章不仅涵盖了基础的Transformer架构,还深入探讨了各类增强版Transformer模型的设计思路和技术细节。 ... [详细]
  • 尽管在WPF中工作了一段时间,但在菜单控件的样式设置上遇到了一些基础问题,特别是关于如何正确配置前景色和背景色。 ... [详细]
  • importjava.io.*;importjava.util.*;publicclass五子棋游戏{staticintm1;staticintn1;staticfinalintS ... [详细]
  • 高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]
  • Spring Boot + RabbitMQ 消息确认机制详解
    本文详细介绍如何在 Spring Boot 项目中使用 RabbitMQ 的消息确认机制,包括消息发送确认和消息接收确认,帮助开发者解决在实际操作中可能遇到的问题。 ... [详细]
  • 用C语言实现的科学计算器,支持2种常量,10种基本函数,Ans寄存器。相对来说拓展性应该是不错的,思路是首先化简复杂名称的函 ... [详细]
  • java解析json转Map前段时间在做json报文处理的时候,写了一个针对不同格式json转map的处理工具方法,总结记录如下:1、单节点单层级、单节点多层级json转mapim ... [详细]
  • iOS snow animation
    CTSnowAnimationView.hCTMyCtripCreatedbyalexon1614.Copyright©2016年ctrip.Allrightsreserved.# ... [详细]
  • 本文介绍了Go语言中正则表达式的基本使用方法,并提供了一些实用的示例代码。 ... [详细]
  • 自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析
    目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]
author-avatar
mobiledu2502927067
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有