我正在阅读用于对象检测的更快的rcnn和ssd代码。预测层使用3x3过滤器来预测框位置和类标签。
为什么不使用2x2滤波器或4x4滤波器或5x5滤波器来预测它们?
这只是超参数的选择。这样的选择可以通过超参数搜索的交叉验证来进行,这意味着训练具有不同超参数选择的一些模型,并且看看谁在验证集上获得了最佳性能。特别是对于3x3卷积,这已经变得流行,因为VGG paper表明堆叠许多3x3卷积(被认为是小内核)可以提供良好的性能。