我正在尝试训练基于 CNN 的深度补全模型(Github 链接)并且在训练模型时遇到一些一般性问题。
我的基本程序是对我的深度和输入进行下采样,将预测双线性上采样到地面实况分辨率,并计算地面实况中深度值 > 0 的像素的 MSE 损失。
使用之前用 KITTI 训练过的相同模型可以得出合理的预测。我的目标是使用我自己的数据集从头开始训练网络。
奇怪的是,使用更多的训练数据会导致更差的视觉表现。
我猜我看到了某种卷积伪影?
我的一个主要问题是我使用的是相对稀疏的地面实况并且没有目标中每个像素的值,那么为什么网络会预测平滑和完整的输出呢?然而,似乎在几篇论文中都可以进行这种训练。
我如何缩小培训的问题范围?一般来说,你怎么知道问题出在超参数、训练实施、数据集或架构上?
我还发现,比较 RMSE、MAE、a1、a2 和 a3 等常见指标对于最终深度结果的视觉表现并没有真正意义。有没有更好的选择?
我已经对一些序列的数据进行了视觉评估,尝试了不同的超参数(没有真正的策略),尝试了不同的方法来规范化我的数据,并训练了倒置的深度值。
我希望我自己训练的模型在视觉和度量上都能比另一个数据集的预训练模型提供更好的结果。