为什么SSD在数据扩充期间调整随机作物的大小?

问题描述 投票:0回答:1

SSD论文将其随机作物数据增强方案详细描述为:

数据扩充使模型对各种输入对象的大小和形状,每个训练图像通过以下选项之一随机采样:–使用整个原始输入图像。–对补丁进行采样,以使与对象的最小jaccard重叠为0.1、0.3,0.5、0.7或0.9。–随机采样补丁。每个采样色块的大小是原始图像大小的[0.1,1],长宽比为在1到2之间。如果...的中心位于地面真值框的重叠部分,它在采样补丁中。在上述采样步骤之后,每个采样的补丁调整为固定大小,并以0.5的概率水平翻转,此外应用类似于[14]中所述的一些光度学失真。https://arxiv.org/pdf/1512.02325.pdf

我的问题是:调整纵横比在0.5到2.0之间的农作物大小的原因是什么?

例如,如果输入图像为300x300,则将AR = 2.0的作物重塑为正方形分辨率会严重拉伸对象(正方形特征变为矩形,圆形变为椭圆形等。)我知道较小的变形可能有助于提高泛化性,但是对任一方向失真高达2倍的对象进行网络训练似乎适得其反。我是否误解了随机作物的工作原理?

[[Edit]我完全理解增强图像的大小必须与原始图像大小相同-我更想知道为什么作者没有将宽高比固定为1.0以保留对象比例。

tensorflow machine-learning computer-vision object-detection object-detection-api
1个回答
0
投票

GPU体系结构强制我们使用批处理来加快训练速度,这些批处理的大小应相同。使用失真程度不高的图像裁切可以提高训练效率,但速度却慢得多。

© www.soinside.com 2019 - 2024. All rights reserved.