什么是边界框的尺度不变性和对数空间转换?

问题描述 投票:0回答:1

在慢速R-CNN论文中,边界框回归的目标是学习将拟议的边界框P映射到地面实况框G的变换,并且我们根据四个函数dx(P),dy(P)对变换进行参数化。 ,DW(P),DH(P)。

  • 前2个指定P的边界框中心的尺度不变的平移,而
  • 第二个指定P的边界框相对于对象建议的宽度和高度的对数空间转换。

这与Fast-RCNN纸张中用于BB预测的技术相同。

问题1。任何人都可以帮助我理解边界框的尺度不变性和对数空间(两者)的相关性以及这些函数如何捕获这两个方面?

问题2。上述BB尺度不变的翻译与实现尺度不变的物体检测(下面解释)有何不同?

我的意思是在快速R-CNN中,作者指出以下两种方法是在对象检测中实现尺度不变性:

  • 首先,在蛮力方法中,每个图像在训练和测试期间以预定义的像素大小进行处理。网络必须直接从训练数据中学习尺度不变的物体检测
  • 第二种方法是使用图像金字塔。

请随意引用研究论文,以便我阅读以便深入了解。

computer-vision object-detection image-recognition bounding-box faster-rcnn
1个回答
1
投票

这些函数dx(P), dy(P), dw(P), dh(P)的目标是从提议框转换为groundtruth框。它们被建模为来自要素图的池特征的线性函数,并且它们包含可学习的参数(权重)。

该论文指出dx(P), dy(P)指定P的边界框中心的尺度不变的平移,注意它们是指定但不是它们,那么这个翻译是什么?翻译看起来像这样:

enter image description here

要了解什么是规模不变,我们可以从需要它的原因开始?因为提案bbox可能会有不同的大小。在下面的图片中,具有蝙蝠和投掷者的提议bbox的人具有不同的大小,两者之后,ROI池将被表示为固定的相同形状特征向量(固定和相同形状!!)。当回归量进行预测时,它只是预测值dx(P)dy(P),并且不区分特征向量来自哪个提议bbox。将此值应用于输入图像时,因为我们已经拥有提案bbox(Px, Py, Pw, Ph)提供的信息,所以输入图像中的bboxes中心可以通过转换简单地计算出来! (注意这两个提议都属于类人,所以回归者可能是相同的,否则回归者是不同的)

enter image description here

至于后两个转型:

enter image description here

如果您在两侧应用日志转换,您将看到它是:

enter image description here


dw(P)dh(P)指定日志空间翻译!

至于第二个问题,边界框回归是整个检测管道的一部分,仅用于bbox回归。除了bbox回归之外,对象检测还必须处理图像分类,提议生成等。例如,在提议生成期间应用金字塔图像。

enter image description here

© www.soinside.com 2019 - 2024. All rights reserved.