准确率(ACC)
指在分类中,使用测试集对模型进行分类,分类正确的记录个数占总记录个数的比例,计算公式如下所示:
其中,代表分类正确的记录个数,代表全部测试数据的个数
ROC曲线下方的面积大小(AUC)
AUC(Area Under Curve)[3]被定义为ROC曲线下的面积,使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
对于ROC曲线是基于样本类别和预测概率,具体来说,ROC曲线的x轴为伪阳性率,y轴是真阳性率。对于二分类问题,一个样本的有0,1两种类别,即阴性和阳性,为我们使用分类器进行预测时,有如表1所示四种可能性:
| 真实类别 |
1 | 0 |
预测类别 | 1 | 真阳性(TP) | 伪阳性(FP) |
0 | 真阴性(FN) | 伪阴性(TN) |
表1 混淆矩阵
即:
TP: 预测为正,实际为正
TN: 预测为负,实际为负
FP:预测为正,实际为负
FN: 预测为负,实际为正
召回率(TPR)
其意义为所有实际类别为1的样本,预测类别为1的比例
以x轴为FPR,y轴为TPR,建立ROC曲线,该曲线下的面积即为AUC,其意义为随机挑选一个正样本以及一个负样本,分类器判断正样本的值高于负样本的值的概率,AUC越接近1,正确率越高。
MRR(Mean reciprocal rank)
是一个国际上通用的对搜索算法进行评价的机制,即第一个结果匹配,分数为1,第二个匹配分数为0.5,第n个匹配分数为1/n,如果没有匹配的句子分数为0。最终的分数为所有得分之和。其计算公式如下所示:
其中,n 为测试集所有答案的数量 , 为第 i 个问题的第一个正确答案的位置。