文章目录
- 引入
- 学前娱乐
- 提出问题
- BAMIC (BAg-level Multi-Instance Clustering )
- 算法一:BAMIC
- 算法二 映射
- 总结
引入
论文地址
学前娱乐
很久很久以前,在森林中有一一个老虎王国,老虎国王生下了一对兄妹。哥哥拥有一双千里眼,可以看到千里之外的事物,妹妹拥有一双顺风耳,可以听到千里之外的声音。哥哥和妹妹每天幸福的生活在一-起,哥哥总是给妹妹讲起他在千里外看到的景色,妹妹则给哥哥讲述千里之外的美妙乐曲。渐渐的,他们相爱了,但亲兄妹是不能在-起的,兄妹两伤心欲绝,哥哥戳瞎了自己的眼睛,他认为,如果不能和妹妹在一起,那他有这样一双眼睛,又有什么用呢?妹妹弄聋了自己的耳朵,她认为,如果不能和哥哥在一起那样,这样- -双耳朵就没什么用了。许多年以后,一个作曲家听说他们的故事,他在这对老虎兄妹感动,于是创作了一段曲子,调我不记得了,不过歌词是这样的:“两只老虎,两只老虎,跑得快,跑得快。一只没有眼睛,一只没有耳朵, 真奇怪,真奇怪。”
提出问题
由于之前的学习都是建议在有监督上面的,尚未研究没有标签的包的无监督多实例学习。BAMIC 就是来解决这个问题的;
先把一个包看作一个原子数据,然后使用某种方式来计算包之间的距离,BAMIC 采用的是流行的 K−MEDIODSK-MEDIODSK−MEDIODS 算法来将未带标签的包分成 kkk 个不相关的包;
基于上面的聚类结果,一种新的多示例预测算法 BARTMIPBARTMIPBARTMIP 也被提出;
首先,每一个包都会被映射成一个 kkk 维向量,第 iii 个特征值是与第 iii 个聚类中心的距离;
将包转换为特征向量,以便普通的受监督学习者从转换后的特征向量中学习,每个向量都与原始包的标签相关联。
BAMIC (BAg-level Multi-Instance Clustering )
其实,说白了,BAMICBAMICBAMIC 就是在包的水平上聚类,用的聚类方式是 K−MEDIODSK-MEDIODSK−MEDIODS ,采用的距离度量则是 Hausdorff ,在 BAMICBAMICBAMIC 基础上,又提出了 BARTMIPBARTMIPBARTMIP (BAg-level Representation Transformation for Multi-Instance Prediction) ,BARTMIPBARTMIPBARTMIP 则是把每个包映射成一个 kkk 维向量,其中第 iii 个特征向量是包与第 iii 个聚类簇的距离。
算法一:BAMIC
在BAMIC聚类中,由于他是在包级别的聚类,因此不能直接调用sklearn的KMeans,只有自己写一次。
输入 :
1)训练包;
2)聚类簇数量;
2)每个包之间的距离 (包之间的距离由 Hausdorff 公式给出)。
提示:关于 Hausdorff 公式 可以自己去了解一下。
输出 :
1)每一个簇集合;
2)簇中心。
过程
1)先随机选取训练包中的 kkk 个包来当簇中心;
2)然后计算其余包与这 kkk 个包的距离,将其分配给离他最近的那个簇;
3)接下来算每个簇中包之间的距离,距离最小的那个包,就是新的簇中心;
4)重复 2-3,直到簇中心不在变化或者达到一定的迭代次数;
5)得到 kkk 个簇中心和簇。
算法二 映射
这部分就更好理解了,就是将BAMIC选出来的簇中心 CCC ,然后每一个包对这些簇中心都会有一个距离,这些距离组成一个 kkk 维的向量 ;因此每一个包都会被映射成一个 kkk 维的向量。
输入
1)训练包(带标签),测试包;
2)包之间的距离 Bag_dist ;
3)学习器(分类器)。
输出
测试标签。
过程
1)由算法一BAMIC获得 kkk 个簇中心;
2)然后每一个包都会对这 kkk 个簇中心来计算一个距离,这 kkk 个距离组成一个kkk 维的向量。
3)最后通过SVM 分类器来对训练包的一个向量来得到一个模型,用这个模型来对映射后的测试包来进行预测。得到一组测试标签,输出。
总结
其实每一篇论文只要弄清楚了之后,思路要很清晰,这样我们就会对每一步都掌握的很好,也不至于看到论文就头痛,要静下心来学习,得到一个有效的进步。