在慢速R-CNN论文中,边界框回归的目标是学习将拟议的边界框P映射到地面实况框G的变换,并且我们根据四个函数dx(P),dy(P)对变换进行参数化。 ,DW(P),DH(P)。
这与Fast-RCNN纸张中用于BB预测的技术相同。
问题1。任何人都可以帮助我理解边界框的尺度不变性和对数空间(两者)的相关性以及这些函数如何捕获这两个方面?
问题2。上述BB尺度不变的翻译与实现尺度不变的物体检测(下面解释)有何不同?
我的意思是在快速R-CNN中,作者指出以下两种方法是在对象检测中实现尺度不变性:
请随意引用研究论文,以便我阅读以便深入了解。
这些函数dx(P), dy(P), dw(P), dh(P)
的目标是从提议框转换为groundtruth框。它们被建模为来自要素图的池特征的线性函数,并且它们包含可学习的参数(权重)。
该论文指出dx(P), dy(P)
指定P的边界框中心的尺度不变的平移,注意它们是指定但不是它们,那么这个翻译是什么?翻译看起来像这样:
要了解什么是规模不变,我们可以从需要它的原因开始?因为提案bbox可能会有不同的大小。在下面的图片中,具有蝙蝠和投掷者的提议bbox的人具有不同的大小,两者之后,ROI池将被表示为固定的相同形状特征向量(固定和相同形状!!)。当回归量进行预测时,它只是预测值dx(P)
和dy(P)
,并且不区分特征向量来自哪个提议bbox。将此值应用于输入图像时,因为我们已经拥有提案bbox(Px, Py, Pw, Ph
)提供的信息,所以输入图像中的bboxes中心可以通过转换简单地计算出来! (注意这两个提议都属于类人,所以回归者可能是相同的,否则回归者是不同的)
至于后两个转型:
如果您在两侧应用日志转换,您将看到它是:
dw(P)
和dh(P)
指定日志空间翻译!
至于第二个问题,边界框回归是整个检测管道的一部分,仅用于bbox回归。除了bbox回归之外,对象检测还必须处理图像分类,提议生成等。例如,在提议生成期间应用金字塔图像。