推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

作者：有拼搏精神的芒果tje | 来源：互联网 | 2023-12-13 19:35

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，

原创&＃xff1a; 石晓文小小挖掘机 2018-06-18

笔者是一个痴迷于挖掘数据中的价值的学习人&＃xff0c;希望在平日的工作学习中&＃xff0c;挖掘数据的价值&＃xff0c;找寻数据的秘密&＃xff0c;笔者认为&＃xff0c;数据的价值不仅仅只体现在企业中&＃xff0c;个人也可以体会到数据的魅力&＃xff0c;用技术力量探索行为密码&＃xff0c;让大数据助跑每一个人&＃xff0c;欢迎直筒们关注我的公众号&＃xff0c;大家一起讨论数据中的那些有趣的事情。

我的公众号为&＃xff1a;livandata

最近阅读论文的过程中&＃xff0c;发现推荐系统中的评价指标真的是五花八门&＃xff0c;今天我们就来系统的总结一下&＃xff0c;这些指标有的适用于二分类问题&＃xff0c;有的适用于对推荐列表topk的评价。

1、精确率、召回率、F1值

我们首先来看一下混淆矩阵&＃xff0c;对于二分类问题&＃xff0c;真实的样本标签有两类&＃xff0c;我们学习器预测的类别有两类&＃xff0c;那么根据二者的类别组合可以划分为四组&＃xff0c;如下表所示&＃xff1a;

上表即为混淆矩阵&＃xff0c;其中&＃xff0c;行表示预测的label值&＃xff0c;列表示真实label值。TP&＃xff0c;FP&＃xff0c;FN&＃xff0c;TN分别表示如下意思&＃xff1a;

TP&＃xff08;true positive&＃xff09;&＃xff1a;表示样本的真实类别为正&＃xff0c;最后预测得到的结果也为正&＃xff1b;
FP&＃xff08;false positive&＃xff09;&＃xff1a;表示样本的真实类别为负&＃xff0c;最后预测得到的结果却为正&＃xff1b;
FN&＃xff08;false negative&＃xff09;&＃xff1a;表示样本的真实类别为正&＃xff0c;最后预测得到的结果却为负&＃xff1b;
TN&＃xff08;true negative&＃xff09;&＃xff1a;表示样本的真实类别为负&＃xff0c;最后预测得到的结果也为负.

可以看到&＃xff0c;TP和TN是我们预测准确的样本&＃xff0c;而FP和FN为我们预测错误的样本。

基于混淆矩阵&＃xff0c;我们可以得到如下的评测指标&＃xff1a;

准确率

准确率表示的是分类正确的样本数占样本总数的比例&＃xff0c;假设我们预测了10条样本&＃xff0c;有8条的预测正确&＃xff0c;那么准确率即为80%。

用混淆矩阵计算的话&＃xff0c;准确率可以表示为&＃xff1a;

精确率&＃xff0f;召回率

精确率表示预测结果中&＃xff0c;预测为正样本的样本中&＃xff0c;正确预测为正样本的概率&＃xff1b;
召回率表示在原始样本的正样本中&＃xff0c;最后被正确预测为正样本的概率&＃xff1b;

二者用混淆矩阵计算如下&＃xff1a;

F1值

为了折中精确率和召回率的结果&＃xff0c;我们又引入了F-1 Score&＃xff0c;计算公式如下&＃xff1a;

2、AUC

AUC定义为ROC曲线下方的面积&＃xff1a;

ROC曲线的横轴为“假正例率”&＃xff08;True Positive Rate,TPR)&＃xff0c;又称为“假阳率”&＃xff1b;纵轴为“真正例率”(False Positive Rate,FPR)&＃xff0c;又称为“真阳率”&＃xff0c;

假阳率&＃xff0c;简单通俗来理解就是预测为正样本但是预测错了的可能性&＃xff0c;显然&＃xff0c;我们不希望该指标太高。

真阳率&＃xff0c;则是代表预测为正样本但是预测对了的可能性&＃xff0c;当然&＃xff0c;我们希望真阳率越高越好。

下图就是我们绘制的一张ROC曲线图&＃xff0c;曲线下方的面积即为AUC的值&＃xff1a;

AUC还有另一种解释&＃xff0c;就是测试任意给一个正类样本和一个负类样本&＃xff0c;正类样本的score有多大的概率大于负类样本的score。

3、Hit Ratio(HR)

在top-K推荐中&＃xff0c;HR是一种常用的衡量召回率的指标&＃xff0c;其计算公式如下&＃xff1a;

分母是所有的测试集合&＃xff0c;分子式每个用户top-K推荐列表中属于测试集合的个数的总和。举个简单的例子&＃xff0c;三个用户在测试集中的商品个数分别是10&＃xff0c;12&＃xff0c;8&＃xff0c;模型得到的top-10推荐列表中&＃xff0c;分别有6个&＃xff0c;5个&＃xff0c;4个在测试集中&＃xff0c;那么此时HR的值是 (6&＃43;5&＃43;4)/(10&＃43;12&＃43;8) &＃61; 0.5。

4、Mean Average Precision(MAP)

在了解MAP(Mean Average Precision)之前&＃xff0c;先来看一下AP(Average Precision), 即为平均准确率&＃xff0c;综合考虑了推荐顺序。

对于AP可以用这种方式理解: 假使当我们使用google搜索某个关键词&＃xff0c;返回了10个结果。当然最好的情况是这10个结果都是我们想要的相关信息。但是假如只有部分是相关的&＃xff0c;比如5个&＃xff0c;那么这5个结果如果被显示的比较靠前也是一个相对不错的结果。但是如果这个5个相关信息从第6个返回结果才开始出现&＃xff0c;那么这种情况便是比较差的。这便是AP所反映的指标&＃xff0c;与recall的概念有些类似&＃xff0c;不过是“顺序敏感的recall”。

比如对于用户 u, 我们给他推荐一些物品&＃xff0c;那么 u 的平均准确率定义为&＃xff1a;

ground-truth为真值表&＃xff0c;即所有值得推荐的内容的集合。

用一个例子来解释AP的计算过程&＃xff1a;

因此该user的AP为&＃xff08;1 &＃43; 0.66 &＃43; 0.5&＃xff09; &＃xff0f; 3 &＃61; 0.72

那么对于MAP(Mean Average Precision)&＃xff0c;就很容易知道即为所有用户 u 的AP再取均值(mean)而已。那么计算公式如下&＃xff1a;

5、Normalized Discounted Cummulative Gain(NDCG)

对于NDCG&＃xff0c;我们需要一步步揭开其神秘的面纱&＃xff0c;先从CG说起&＃xff1a;
CG
我们先从CG(Cummulative Gain)说起, 直接翻译的话叫做“累计增益”。在推荐系统中&＃xff0c;CG即将每个推荐结果相关性(relevance)的分值累加后作为整个推荐列表(list)的得分。即

这里&＃xff0c; rel-i 表示处于位置 i 的推荐结果的相关性&＃xff0c;k 表示所要考察的推荐列表的大小。

DCG&＃xff08;带权重的推荐结果累计增益&＃xff1a;折损累积增益&＃xff09;
CG的一个缺点是没有考虑每个推荐结果处于不同位置对整个推荐效果的影响&＃xff0c;例如我们总是希望相关性高的结果应排在前面。显然&＃xff0c;如果相关性低的结果排在靠前的位置会严重影响用户体验&＃xff0c; 所以在CG的基础上引入位置影响因素&＃xff0c;即DCG(Discounted Cummulative Gain), “Discounted”有打折&＃xff0c;折扣的意思&＃xff0c;这里指的是对于排名靠后推荐结果的推荐效果进行“打折处理”:

从上面的式子可以得到两个结论&＃xff1a;
1&＃xff09;推荐结果的相关性越大&＃xff0c;DCG越大。
2&＃xff09;相关性好的排在推荐列表的前面的话&＃xff0c;推荐效果越好&＃xff0c;DCG越大。

NDCG&＃xff08;归一化折损累积增益&＃xff09;
DCG仍然有其局限之处&＃xff0c;即不同的推荐列表之间&＃xff0c;很难进行横向的评估。而我们评估一个推荐系统&＃xff0c;不可能仅使用一个用户的推荐列表及相应结果进行评估&＃xff0c; 而是对整个测试集中的用户及其推荐列表结果进行评估。那么不同用户的推荐列表的评估分数就需要进行归一化&＃xff0c;也即NDCG(Normalized Discounted Cummulative Gain)。

在介绍NDCG之前&＃xff0c;还需要了解一个概念&＃xff1a;IDCG. IDCG, 即Ideal DCG&＃xff0c; 指推荐系统为某一用户返回的最好推荐结果列表&＃xff0c; 即假设返回结果按照相关性排序&＃xff0c; 最相关的结果放在最前面&＃xff0c; 此序列的DCG为IDCG。因此DCG的值介于 (0,IDCG] &＃xff0c;故NDCG的值介于(0,1]&＃xff0c;那么用户u的NDCG&＃64;K定义为&＃xff1a;

因此&＃xff0c;平均NDCG计算为&＃xff1a;

NDCG的完整案例
看了上面的介绍&＃xff0c;是不是感觉还是一头雾水&＃xff0c;不要紧张&＃xff0c;我们通过一个案例来具体介绍一下。

假设在Baidu搜索到一个词&＃xff0c;得到5个结果。我们对这些结果进行3个等级的分区&＃xff0c;对应的分值分别是3、2、1&＃xff0c;等级越高&＃xff0c;表示相关性越高。假设这5个结果的分值分别是3、1、2、3、2。

因此CG的计算结果为3&＃43;1&＃43;2&＃43;3&＃43;2 &＃61; 11。DCG的值为6.69&＃xff0c;具体见下表&＃xff1a;

理想状况下&＃xff0c;我们的IDCG排序结果的相关性应该是3&＃xff0c;3&＃xff0c;2&＃xff0c;2&＃xff0c;1&＃xff0c;因此IDCG为7.14(具体过程不再给出)&＃xff0c;因此NDCG结果为6.69/7.14 &＃61; 0.94。

6、Mean Reciprocal Rank (MRR)

MRR计算公式如下&＃xff1a;

其中|Q|是用户的个数&＃xff0c;ranki是对于第i个用户&＃xff0c;推荐列表中第一个在ground-truth结果中的item所在的排列位置。

举个例子&＃xff0c;有三个用户&＃xff0c;推荐列表中正例的最小rank值分别为3&＃xff0c;2&＃xff0c;1&＃xff0c;那么MRR&＃61;(1 &＃43; 0.5 &＃43; 0.33) / 3 &＃61; 0.61

7、ILS

ILS是衡量推荐列表多样性的指标&＃xff0c;计算公式如下&＃xff1a;

如果S(bi,bj)计算的是i和j两个物品的相似性&＃xff0c;如果推荐列表中物品越不相似&＃xff0c;ILS越小&＃xff0c;那么推荐结果的多样性越好。

8、代码实践

本文实践了部分上面提到的评价指标&＃xff0c;git地址为&＃xff1a;https://github.com/princewen/tensorflow_practice/tree/master/recommendation/Basic-Evaluation-metrics

参考目录为&＃xff1a;

参考文献

1、https://blog.csdn.net/simple_the_best/article/details/52296608
2、https://blog.csdn.net/u010670689/article/details/73196054
3、https://www.cnblogs.com/wzyj/p/8976185.html
4、https://blog.csdn.net/u014313009/article/details/38944687

推荐阅读

select
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
go
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
sum
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
join
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
go
Handling Null Object Encoding in OAuth 1.0a API Implementation

Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]

蜡笔小新 2024-12-28 08:54:34
select
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
runtime
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
uri
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
go
Docker的安全基准

nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ... [详细]

蜡笔小新 2024-12-28 13:00:24
go
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
join
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
select
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
get
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49
sum
Java 序列化接口详解

本文深入探讨了 Java 中的 Serializable 接口，解释了其实现机制、用途及注意事项，帮助开发者更好地理解和使用序列化功能。 ... [详细]

蜡笔小新 2024-12-27 15:06:12
go
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59

有拼搏精神的芒果tje

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章