为什么SSD在数据扩充期间调整随机作物的大小？

问题描述投票：0回答：1

SSD论文将其随机作物数据增强方案详细描述为：

数据扩充使模型对各种输入对象的大小和形状，每个训练图像通过以下选项之一随机采样：–使用整个原始输入图像。–对补丁进行采样，以使与对象的最小jaccard重叠为0.1、0.3，0.5、0.7或0.9。–随机采样补丁。每个采样色块的大小是原始图像大小的[0.1，1]，长宽比为在1到2之间。如果...的中心位于地面真值框的重叠部分，它在采样补丁中。在上述采样步骤之后，每个采样的补丁调整为固定大小，并以0.5的概率水平翻转，此外应用类似于[14]中所述的一些光度学失真。https://arxiv.org/pdf/1512.02325.pdf

我的问题是：调整纵横比在0.5到2.0之间的农作物大小的原因是什么？

例如，如果输入图像为300x300，则将AR = 2.0的作物重塑为正方形分辨率会严重拉伸对象（正方形特征变为矩形，圆形变为椭圆形等。）我知道较小的变形可能有助于提高泛化性，但是对任一方向失真高达2倍的对象进行网络训练似乎适得其反。我是否误解了随机作物的工作原理？

[[Edit]我完全理解增强图像的大小必须与原始图像大小相同-我更想知道为什么作者没有将宽高比固定为1.0以保留对象比例。

tensorflow

machine-learning

computer-vision

object-detection

object-detection-api

1个回答

0
投票

GPU体系结构强制我们使用批处理来加快训练速度，这些批处理的大小应相同。使用失真程度不高的图像裁切可以提高训练效率，但速度却慢得多。

为什么SSD在数据扩充期间调整随机作物的大小？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1