前两个数字代表图片的尺寸,这里的图片是正方形的。最后一个数字是您在每次迭代中输入的图片数量。为什么这不只是简单的1?好吧,在某些情况下,如果您输入同一实例的多个图像(例如来自不同视图的图像)或高度相关的图像,则可以提高训练结果并缩短训练时间。
我非常喜欢的一个例子是 DeepMind 2013 年的Atari 论文,展示了他们如何在 Atari 游戏上训练强化学习模型。在 Atari Breakout 中,为了让模型更好地理解球如何移动以及它会去哪里,在每一步中,他们不仅仅输入当前帧;还输入当前帧。输入也包括三个不同的帧,提供有关正在发生的情况的更多信息。
在那里,每一帧都存储为 84x84 像素图片,使 CNN 模型成为 84x84x4(然后他们使用 RL 的 Q 学习进行训练,这是一种独特的组合)。