作者:k婷妈咪1_1997 | 来源:互联网 | 2023-09-24 19:49
- Triplet loss(三胞胎损失),更适合用在图像识别的问题上面
但是他的缺点是:不好训练
详见链接:https://www.zhihu.com/question/62486208
- 图像检索:BoF、VLAD、FV三剑客(这些都是传统的非深度学习的方法),可以参考链接:https://yongyuan.name/blog/CBIR-BoF-VLAD-FV.html
- Bow的作用只是用在使用传统算法提取图像特征的领域。Bag of words模型(简称BOW)是最常用的特征描述的方法了。在图像分类和检索的相关问题中,能够将一系列数目不定的局部特征聚合为一个固定长度的特征矢量,从而使不同图像之间能够进行直接比较。
可以参考这个链接:https://blog.csdn.net/jwh_bupt/article/details/17540561
- CUHK03:取自5个不同的视角对,共1467个行人的14000多张图像。这个属于re-id的数据集。可以参考链接:https://blog.csdn.net/yuanchheneducn/article/details/53437005
- 模型算力的计算,可以参考链接:https://blog.csdn.net/u011501388/article/details/81061024
- 行人再识别(re-id)的网络的训练是带有标签的提取特征的网络。用于构建数据库(gallery)的数据(也就是相当于是测试集数据)是没有标签的数据。因为在使用的时候是很难拿到这个数据的标签的,所以使用re-id的方法进行构建。
二.Cvpr2018
21主要讲的是消除背景对re-id的影响,与 query 图片有相似背景但不同行人的图片排在 rank 6,而同一行人不同背景的图片却排在 rank 25。为了消除背景的干扰,提出了一个网络,由此还产生出来一个新的数据增广的方法:对背景进行随机化。
22已经被pass里面讲的是同一个人,如果在一个摄像头里面检测不出来,就是用在相近距离的地方的别的摄像头采集到的图像,将他们弄成一个视频,然后再检测,不适用于咱们的场景。
23应该也是多为感知的(没有细看)
24将强化学习引入进来,对于判断对的进行奖励,判断错的进行惩罚,对于不确定的也进行的,进行一些参数的反馈。
三.神经网络的细节
1. 假如对于yolo网络,训练的时候就有loss的,也就是训练集的数据是有标签的。但是测试集是没有标签的。Softmax的作用是输出一个置信度或者说是输出的为一个概率。后续对于属于什么类别,是自己写的一些if else的筛选。对于得分高的给它进行归类,对于得分低的进行pass,就是任何一个图像(还是图像的网格)都会出来一个向量
2.
四.经验
1.对于anchor大小的选择,可以在训练之前,对训练集(因为训练集有标签)的boundingbox进行聚类(比如knn算法或者kmeans),也就是选取被标注图像的bbox进行聚类,查看原始标注的bbox的大小,再进行对于自己神经网络里面的anchor大小的选择。比如yolo里面的anchor(先验框)大小的选择。详细的解析可以参考这个链接:https://blog.csdn.net/Pattorio/article/details/80095511