什么是边界框的尺度不变性和对数空间转换？

在慢速R-CNN论文中，边界框回归的目标是学习将拟议的边界框P映射到地面实况框G的变换，并且我们根据四个函数dx（P），dy（P）对变换进行参数化。，DW（P），DH（P）。

前2个指定P的边界框中心的尺度不变的平移，而
第二个指定P的边界框相对于对象建议的宽度和高度的对数空间转换。

这与Fast-RCNN纸张中用于BB预测的技术相同。

问题1。任何人都可以帮助我理解边界框的尺度不变性和对数空间（两者）的相关性以及这些函数如何捕获这两个方面？

问题2。上述BB尺度不变的翻译与实现尺度不变的物体检测（下面解释）有何不同？

我的意思是在快速R-CNN中，作者指出以下两种方法是在对象检测中实现尺度不变性：

首先，在蛮力方法中，每个图像在训练和测试期间以预定义的像素大小进行处理。网络必须直接从训练数据中学习尺度不变的物体检测
第二种方法是使用图像金字塔。

请随意引用研究论文，以便我阅读以便深入了解。

1
投票

这些函数dx(P), dy(P), dw(P), dh(P)的目标是从提议框转换为groundtruth框。它们被建模为来自要素图的池特征的线性函数，并且它们包含可学习的参数（权重）。

该论文指出dx(P), dy(P)指定P的边界框中心的尺度不变的平移，注意它们是指定但不是它们，那么这个翻译是什么？翻译看起来像这样：

要了解什么是规模不变，我们可以从需要它的原因开始？因为提案bbox可能会有不同的大小。在下面的图片中，具有蝙蝠和投掷者的提议bbox的人具有不同的大小，两者之后，ROI池将被表示为固定的相同形状特征向量（固定和相同形状!!）。当回归量进行预测时，它只是预测值dx(P)和dy(P)，并且不区分特征向量来自哪个提议bbox。将此值应用于输入图像时，因为我们已经拥有提案bbox（Px, Py, Pw, Ph）提供的信息，所以输入图像中的bboxes中心可以通过转换简单地计算出来！（注意这两个提议都属于类人，所以回归者可能是相同的，否则回归者是不同的）

至于后两个转型：

如果您在两侧应用日志转换，您将看到它是：

dw(P)和dh(P)指定日志空间翻译！

至于第二个问题，边界框回归是整个检测管道的一部分，仅用于bbox回归。除了bbox回归之外，对象检测还必须处理图像分类，提议生成等。例如，在提议生成期间应用金字塔图像。

问题描述投票：0回答：1

1个回答

最新问题

什么是边界框的尺度不变性和对数空间转换？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1