YOLO如何处理不同尺寸的输入图像？

问题描述投票：0回答：2

我正在使用 YOLOv5 进行自定义对象检测。我们可以向网络提供不同的输入图像大小。 DNN 网络如何接受不同大小的输入？ YOLO 对于不同的输入大小有不同的主干网吗？

当我将 --imgsz 参数指定为 640 时，YOLO 数据加载器会将其大小调整为 (384, 672, 3)，如果 --imgsz 为 320，则调整后的图像大小为 (224, 352, 2)。由于传统的 CNN 接受固定的正方形大小（等高和宽）输入，YOLO 如何处理可变的图像大小？

deep-learning

object-detection

yolov5

2个回答

1
投票

通常，在 CNN 中，需要固定输入大小的是最后几层。对于 YOLO 来说，是 CSP-PAN 颈部和检测头。所以发生的事情是，他们通过空间金字塔池 - 快速（SPPF）块传递主干的特征图。该块执行一系列池化操作并输出固定大小的向量。 SPPF 是空间金字塔池化 (SPP) 的改进版。

0
投票

在大多数 CNN 训练数据集中，图像不是方形的。通常，从这些图像中获取方形裁剪。在训练过程中，通常会选择一个随机方格，而在测试过程中，会使用多个方格，并组合预测。