视觉分类算法的性能测试指标

评价不同视觉分类算法的性能指标包含:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、ROC曲线

评价不同分类算法的性能指标包含:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、ROC曲线

我们关注的类别为正类,其他为负类。分类算法与预测正确和错误两种结果,所以一共有4种可能的情况。下面可以排列为混淆矩阵:

在这里插入图片描述
  • 真正例(True Positive,TP):一个正例被正确预测为正例
  • 真反例(True Negative,TN):一个正例被正确预测为反例
  • 假正例(False Positive,FP):一个反例被错误预测为正例
  • 假反例(False Negative,FN):一个正例被错误预测为反例

1 分类准确率

分类准确率所有一个严重的缺陷,在类别样本不均衡的情况下,占比大的类别会成为影响准确率最主要因素,此时的准确率并不能很好地反应模型整体情况。比如预测一个患者是否有癌症,由于人群中不得癌症的占大多数,所以直接将其预测为不得癌症有很高的准确率,但是一错误就会给癌症患者预测为未得癌症患者会对患者造成致命的影响。

准确率(Accuracy)定义为:

Accuracy=()

2 精确率(Precision)

Precision是分类算法预测的正样本中预测正确的比例,取值范围为[0,1]取值越大,模型预测能力越好

在这里插入图片描述

3 召回率(Recall)

Recall是实际为正的样本中被预测为正样本的概率

在这里插入图片描述

4 召回率和精确率的关系

两个分子都为预测正确的正样本数量,但是分母不同。

精确率:分母是分类算法预测的所有正样本数。包含真实预测为正类,以及实际为负类,但预测为正类的数量。

召回率:分母是分类真实值为正样本数,包含预测正确的正类,真实为正类预测为负类的样本。

5 ROC曲线

分类任务中,测试部分通常是获得一个概率表示当前样本属于正例的概率,我们会采取一个阈值,概率大于该阈值为正例,小于该阈值为负例。减小阈值,会有更多的样本被识别为正类,会提高正类的识别率,但同时会降低负类的识别率。

ROC曲线的纵轴是不同阈值水平下的真阳性率(TPR),即在所有的正样本中,TRP实际就是召回率,也被称为灵敏度。分类算法预测正确的比例:

在这里插入图片描述

ROC曲线的横轴则是不同阈值水平下的假阳性率,即 在所有的负样本中,分类器预测错误的比例

在这里插入图片描述

1-FPR也被称为特异度(Specificity)

5.1 举例说明

医学诊断的主要任务是尽量把生病的人群都找出来,也就是TPR越高越好。而尽量降低没病误诊为有病的人数,也就是FPR越低越好。不难发现, 这两个指标之间是相互制约的。如果某个医生对于有病的症状比较敏感,稍微小的症状都判断为有病,那么他的TPR应该会很高,但是FPR也就相应地变高。 最极端的情况下,他把所有的样本都看做有病,那么TPR达到1,FPR也为1。

5.2 结论

1)当阈值接近0时,几乎所有的预测值均为正类,那么TPR接近1,而FPR也接近1,即点(FPR, TPR)的坐标接近(1,1)。

2)当阈值接近1时, 几乎所有的预测值均为负类,那么TPR接近0,而FPR也接近0, 即点(FPR, TPR)的坐标接近(0,0)。ROC曲线通常是连接点(0,0)和(1,1)的凹形曲线。示意图如下所示。

3)分类算法对应的ROC曲线应该尽可能靠近坐标轴的左上角,此时FPR较小而TPR较大*。而对角线的位置意味着分类算法的效果和随机猜测一样的差。

若一个分类算法的ROC 曲线被另一个分类算法的ROC曲线完全包住, 则可断言后者的性能优于前者
若两个分类算法的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣. 此时如果一定要进
行比较,则较为合理的判据是比较ROC曲线下的面积,即AUC (Area Under ROC Curve) ,如下图所示。

在这里插入图片描述

* 注:本文来自网络投稿,不代表本站立场,如若侵犯版权,请及时知会删除