Conv2D 32x32x3 实际上是什么意思?

问题描述 投票:0回答:1

我看到一篇论文解释了 CNN 架构(附图),其中包含由 Conv2D MxMxN 表示的 Conv2D 块。我无法理解内核尺寸和内核数量的含义。

Model architecture

论文链接

conv-neural-network tensorflow2.0 convolution
1个回答
0
投票

前两个数字代表图片的尺寸,这里的图片是正方形的。最后一个数字是您在每次迭代中输入的图片数量。为什么这不只是简单的1?好吧,在某些情况下,如果您输入同一实例的多个图像(例如来自不同视图的图像)或高度相关的图像,则可以提高训练结果并缩短训练时间。

我非常喜欢的一个例子是 DeepMind 2013 年的Atari 论文,展示了他们如何在 Atari 游戏上训练强化学习模型。在 Atari Breakout 中,为了让模型更好地理解球如何移动以及它会去哪里,在每一步中,他们不仅仅输入当前帧;还输入当前帧。输入也包括三个不同的帧,提供有关正在发生的情况的更多信息。
在那里,每一帧都存储为 84x84 像素图片,使 CNN 模型成为 84x84x4(然后他们使用 RL 的 Q 学习进行训练,这是一种独特的组合)。

© www.soinside.com 2019 - 2024. All rights reserved.