作者:哈多哥_864 | 来源:互联网 | 2023-08-23 14:37
1、Ground Truth
对于任何算法,评估指标需要知道Ground Truth(真实标签)数据。对于目标检测问题,Ground Truth包括图像中物体的类别以及该图像中每个物体的真实边界框。
2、mAP
训练好的目标检测模型会给出大量的预测结果,但是其中大多数的预测值都会有非常低的置信度(confidence score),因此我们只考虑那些置信度高于某个阈值的预测结果。
将原始图片送入训练好的模型,在经过置信度阈值筛选之后,目标检测算法给出带有边界框的预测结果:
当比较mAP值,记住以下要点:
- mAP通常是在一个数据集上计算得到的。
- 虽然解释模型输出的绝对量化并不容易,但mAP作为一个相对较好的度量指标可以帮助我们。 当我们在流行的公共数据集上计算这个度量时,该度量可以很容易地用来比较目标检测问题的新旧方法。
- 根据训练数据中各个类的分布情况,mAP值可能在某些类(具有良好的训练数据)非常高,而其他类(具有较少/不良数据)却比较低。所以你的mAP可能是中等的,但是你的模型可能对某些类非常好,对某些类非常不好。因此,建议在分析模型结果时查看各个类的AP值。这些值也许暗示你需要添加更多的训练样本。
3、baseline和beachmark
baseline:a standard measurement or fact against which other measurements or facts are compared, especially in medicine or science.
baseline可以理解成在比较中作为“参照物”的存在,强调比较,在比较中作为参照物,基线;
benchmark:something that is used as a standard by which other things can be judged or measured.
benchmark本身是一种标准、规则。