CNN：如果数据集具有指定的边界框作为注解，应使用它们吗？

问题描述投票：0回答：1

假设我正在开发一个CNN，以尝试使用Stanford Dogs imagenet数据库检测各种犬种。 Stanford Dogs数据库注释包括边界框，这些边界框具有内置的狗的位置。

在将这些图像发送到我选择的CNN之前，我应该先将图像裁剪到边界框，然后再调整大小吗？

或者我应该保留图像的原样，只是调整它们的大小？

neural-network

conv-neural-network

image-recognition

1个回答

0
投票

我认为您有几种选择：

1。裁剪图像：如果输入图像被裁剪，您的网络将学会对狗的品种进行分类。如果未裁剪输入图像，则网络可能会失败。但是，该任务更容易完成，因此有更多的机会获得很好的结果。

2。专门训练网络以查找边界框：您可能需要实际检测狗的位置（如果有），然后检测其品种。在这种情况下，您可能想要尝试将另一个网络专用于此任务。在这里，您将为第一个网络提供批注，为第二个网络提供裁剪的图像。

3。不裁剪图像：您也可以尝试训练一个网络，该网络能够对狗进行分类，而不管它们在图像中的位置如何。但是，根据您的网络体系结构，这可能不起作用，或者产生次优的结果。

因此，正如您所看到的，这实际上取决于您对网络的期望以及它的功能。