YOLO如何处理不同尺寸的输入图像?

问题描述 投票:0回答:2

我正在使用 YOLOv5 进行自定义对象检测。我们可以向网络提供不同的输入图像大小。 DNN 网络如何接受不同大小的输入? YOLO 对于不同的输入大小有不同的主干网吗?

当我将 --imgsz 参数指定为 640 时,YOLO 数据加载器会将其大小调整为 (384, 672, 3),如果 --imgsz 为 320,则调整后的图像大小为 (224, 352, 2)。 由于传统的 CNN 接受固定的正方形大小(等高和宽)输入,YOLO 如何处理可变的图像大小?

deep-learning object-detection yolov5
2个回答
1
投票

通常,在 CNN 中,需要固定输入大小的是最后几层。对于 YOLO 来说,是 CSP-PAN 颈部和检测头。所以发生的事情是,他们通过空间金字塔池 - 快速(SPPF)块传递主干的特征图。该块执行一系列池化操作并输出固定大小的向量。 SPPF 是空间金字塔池化 (SPP) 的改进版。

这里有一篇关于 SPP 的论文:https://paperswithcode.com/method/spatial-pyramid-pooling


0
投票

在大多数 CNN 训练数据集中,图像不是方形的。通常,从这些图像中获取方形裁剪。在训练过程中,通常会选择一个随机方格,而在测试过程中,会使用多个方格,并组合预测。

© www.soinside.com 2019 - 2024. All rights reserved.