分类算法中的ROC与PR指标

作者：0雕雕_970 | 来源：互联网 | 2023-09-17 17:15

做过图像识别、机器学习或者信息检索相关研究的人都知道，论文的实验部分都要和别人的算法比一比。可怎么比，人多嘴杂，我说我的方法好，你说你的方法好，各做各的总是不行——没规矩不成方圆。于是慢慢的大家就形成

做过图像识别、机器学习或者信息检索相关研究的人都知道，论文的实验部分都要和别人的算法比一比。可怎么比，人多嘴杂，我说我的方法好，你说你的方法好，各做各的总是不行——没规矩不成方圆。于是慢慢的大家就形成了一种约定，用ROC曲线和PR曲线来衡量算法的优劣。关于ROC曲线和PR曲线的详细介绍可参考资料：

ROC Analysis and the ROC Convex Hull
Tom Fawcett,An introduction to ROC analysis
Jesse Davis,Mark Goadrich. The Relationship Between Precision-Recall and ROC Curves.，还有一份与这篇文章对应的PPT讲稿

有这3份资料足以，应用分析和理论分析都讲得很不错。

基本概念

True Positives,TP：预测为正样本，实际也为正样本的特征数
False Positives,FP：预测为正样本，实际为负样本的特征数（错预测为正样本了，所以叫False）
True Negatives,TN：预测为负样本，实际也为负样本的特征数
False Negatives,FN：预测为负样本，实际为正样本的特征数（错预测为负样本了，所以叫False）

接着往下做做小学的计算题：

TP+FP+FN+FN：特征总数(样本总数)
TP+FN：实际正样本数
FP+TN：实际负样本数
TP+FP：预测结果为正样本的总数
TN+FN：预测结果为负样本的总数

有些绕，为做区分，可以这样记：相同的后缀（P或N）之和表示__预测__正样本/负样本总数，前缀加入T和F；实际样本总数的4个字母完全不同，含TP（正正得正）表示实际正样本，含FP（负正得负）表示实际负样本。

ROC曲线和PR曲线

True Positive Rate(TPR)和False Positive Rate(FPR)分别构成ROC曲线的y轴和x轴。

TPR=TP/(TP+FN)，实际正样本中被预测正确的概率
FPR=FP/(FP+TN)，实际负样本中被错误预测为正样本的概率

实际学习算法中，预测率100%的话，TPR=100%和FPR=0，所以TPR越大而FPR越小越好。仅用其中一个作为衡量指标可以吗？考虑这么一种情况，一幅图片假如600x480个像素，其中目标（正样本）仅有100个像素，假如有某种算法，预测的目标为包含所有像素600x480，这种情况下TPR的结果是TPR=100%，但FPR却也接近于100%。明显，TPR满足要求但结果却不是我们想要的，因为FPR太高了。

Precision和Recall（有人中文翻译成召回率）则分别构成了PR曲线的y轴和x轴。

Precision=TP/(TP+FP)，预测结果为有多少正样本是预测正确了的
Recall=TP/(TP+FN)，召回率很有意思，这个其实就=TPR，相对于Precision只不过参考样本从预测总正样本数结果变成了实际总正样本数。

同理，Precision和Recall同时考虑才能确定算法好坏。好了，原来一切尽在尽在下图中，

图：Confusion Matrix

既然ROC和PR都是同时要考虑两个指标，一个我好一个你好，到底谁好？画到ROC空间一看便知，如下图，将TPR和FPR分别画在两个坐标轴上，则沿着对角线的方向，离右上角越近，算法效果越好。（由于ROC和PR类似，以下仅讨论ROC空间和ROC曲线。）

图：ROC空间

一个分类算法，找个最优的分类效果，对应到ROC空间中的一个点。通常分类器的输出都是Score，比如SVM、神经网络，有如下的预测结果：

TABLE 一般分类器的结果都是Score表
no.	True	Hyp	Score
1	p	Y	0.99999
2	p	Y	0.99999
3	p	Y	0.99993
4	p	Y	0.99986
5	p	Y	0.99964
6	p	Y	0.99955
7	n	Y	0.68139
8	n	Y	0.50961
9	n	N	0.48880
10	n	N	0.44951

True表示实际样本属性，Hyp表示预测结果样本属性，第4列即是Score，Hyp的结果通常是设定一个阈值，比如上表就是0.5，Score>0.5为正样本，小于0.5为负样本，这样只能算出一个ROC值，为更综合的评价算法的效果，通过取不同的阈值，得到多个ROC空间的值，将这些值描绘出ROC空间的曲线，即为ROC曲线。

图：ROC曲线绘制

我们只要明白这个基本的点，详细的ROC曲线绘制已经有很多代码了，资料1就提供了Prel直接根据Score绘制ROC曲线的代码，Matlab也有，下载链接：

Local: prec_rec.m
Mathworks: prec_rec.m

有了ROC曲线，更加具有参考意义的评价指标就有了，在ROC空间，算法绘制的ROC曲线越凸向西北方向效果越好，有时不同分类算法的ROC曲线存在交叉，因此很多文章里用AUC（即Area Under Curve曲线下的面积）值作为算法好坏的评判标准。关于这里的凸理论可参考文章开头的[资料2]。

与ROC曲线左上凸不同的是，PR曲线是右上凸效果越好，下面是两种曲线凸向的简单比较：

图：算法在ROC空间与PR空间的不同比较

作为衡量指标，选择ROC或PR都是可以的。但是资料3显示，ROC和PR虽然具有相同的出发点，但并不一定能得到相同的结论，在写论文的时候也只能参考着别人已有的进行选择了。

推荐阅读

text
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
go
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
range
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
text
Python 开发环境最佳实践：Anaconda + Jupyter Notebook 快速上手指南

对于初学者而言，搭建一个高效稳定的 Python 开发环境是入门的关键一步。本文将详细介绍如何利用 Anaconda 和 Jupyter Notebook 来构建一个既易于管理又功能强大的开发环境。 ... [详细]

蜡笔小新 2024-11-21 18:30:23
text
本周三大青年学术分享会即将开启

由雷锋网旗下的AI研习社主办，旨在促进AI领域的知识共享和技术交流。通过邀请来自学术界和工业界的专家进行在线分享，活动致力于搭建一个连接理论与实践的平台。 ... [详细]

蜡笔小新 2024-11-21 17:13:10
range
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
sum
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
java
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
数组
使用Matlab创建动态GIF动画

动态GIF图可以有效增强数据表达的直观性和吸引力。本文将详细介绍如何利用Matlab软件生成动态GIF图，涵盖基本代码实现与高级应用技巧。 ... [详细]

蜡笔小新 2024-11-22 16:52:32
range
机器学习（ML）三之多层感知机

深度学习主要关注多层模型，现在以多层感知机（multilayerperceptron，MLP）为例，介绍多层神经网络的概念。隐藏层多层感知机在单层神经网络的基础上引入了一到多个隐藏 ... [详细]

蜡笔小新 2024-11-19 19:02:28
audio
微软等企业捐赠首批AI有声读物，助力视障人士

12月2日，微软联合鹿音苑文化传播公司及150多名志愿者，共同捐赠了首批由人工智能生成的有声内容，旨在为视障人士提供更多文化资源。 ... [详细]

蜡笔小新 2024-11-17 19:13:27
command
使用 Jupyter Notebook 实现 Markdown 编写与代码运行

Jupyter Notebook 是一个开源的基于网页的应用程序，允许用户在同一文档中编写 Markdown 文本和运行多种编程语言的代码，并实时查看运行结果。 ... [详细]

蜡笔小新 2024-11-15 14:50:50
string
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
text
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
text
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58

0雕雕_970

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章