我正在培训视频序列的深度学习多目标跟踪模型。提取视频帧并在1fps
注释。为了利用更平滑的时间相干性,我在每个2
注释帧之间提取了中间24帧。现在,我在25fps
处提取了所有帧,但是地面实况标签仅在最初注释的25
帧的间隔处可用。
我想通过在前向传递期间提供所有平滑的25fps
帧来训练深度学习模型,但是在backprops期间,我想要仅针对带注释的1fps
帧计算和优化损失。
有关我应该怎么做的任何暗示?特别是当我的mini-batch size
小于25
。
到目前为止,我正在做的一件有用的事情是对未注释的帧使用-1标签,并在计算丢失时跳过它们。这可能是次优的,但有效,任何人都有更好的想法吗?