3 A Review on the Watershed Transform 首先来看看分水岭算法的大致思路:我们可以将一幅灰度图像看作一个地形图 topographic surface,我们从地形图的最低点 minima 开始注水,同时我们建造谁把barriers 用于防止两个不同注水的的水融合到一起去。这样我们就可以将地形图分割为若干区域,这里每个区域我们称之为 catchment basins,我们建造的水坝 barriers or watershed lines 表示两物体的边界线。
分水岭算法一个问题就是容易过分割。这里我们使用 CNN 网络来解决这个过分割问题。
4 Deep Watershed Tranform 这里我们希望使用 CNN网络来学习预测 一个 energy landscape,其每个 basin 对应一个物体,如上图的下半部分所示。但是从头开始学习这个 energy landscape 很难。这里我们定义了一个中间任务,就是我们学习 分水岭能量图的下降方向 direction of descent of the watershed energy,然后将这个输入到另一个网络用于学习最终的能量图。我们可以将这个中间结果理解为 学习每个目标内的点到其边界的距离,learning to perform the distance transform of each point within an object instance to the instance’s boundary
我们的整体网络结果如下图所示:
4.1. Direction Network (DN) 这里的输入只关注物体区域, the original RGB image gated by semantic segmentation(PSPNet [34]),非物体区域清零。input image is augmented by adding the semantic segmentation as a fourth channel
这一步主要用于 estimate the direction of descent of the energy at each pixel,对应 Figure 4 中的 f
4.2. Watershed Transform Network (WTN) 基于分水岭能量图的下降方向图,我们来 predict a modified watershed transform energy 对应 Figure 4 中的 g
4.3. Network Training 首先预训练 DN and WTN networks 分别定义了几个损失函数: Direction Network pre-training: mean squared error in the angular domain
Watershed Network pre-training: modified cross-entropy loss
本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ...
[详细]