Conv2D 32x32x3 实际上是什么意思？

问题描述投票：0回答：1

我看到一篇论文解释了 CNN 架构（附图），其中包含由 Conv2D MxMxN 表示的 Conv2D 块。我无法理解内核尺寸和内核数量的含义。

conv-neural-network

tensorflow2.0

convolution

1个回答

0
投票

前两个数字代表图片的尺寸，这里的图片是正方形的。最后一个数字是您在每次迭代中输入的图片数量。为什么这不只是简单的1？好吧，在某些情况下，如果您输入同一实例的多个图像（例如来自不同视图的图像）或高度相关的图像，则可以提高训练结果并缩短训练时间。

我非常喜欢的一个例子是 DeepMind 2013 年的Atari 论文，展示了他们如何在 Atari 游戏上训练强化学习模型。在 Atari Breakout 中，为了让模型更好地理解球如何移动以及它会去哪里，在每一步中，他们不仅仅输入当前帧；还输入当前帧。输入也包括三个不同的帧，提供有关正在发生的情况的更多信息。
在那里，每一帧都存储为 84x84 像素图片，使 CNN 模型成为 84x84x4（然后他们使用 RL 的 Q 学习进行训练，这是一种独特的组合）。

Conv2D 32x32x3 实际上是什么意思？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1