论文《Atari 基于模型的强化学习》中代理的输入是什么，为什么世界模型在推理时运行？ [已关闭]

问题描述投票：0回答：1

我目前正在阅读论文“Atari 基于模型的强化学习”（链接：https://arxiv.org/abs/1903.00374）。但是，他们没有指定具体使用什么作为代理的输入。

我相信它是观察空间 - 意思是堆叠的框架。在训练期间，这些将由世界模型提供，而在推理时，真实环境将提供它们 - 对吗？然而，他们还在“随机模型”下的第 4 节中指定，该随机模型（据我所知，在某种意义上是世界模型的一部分）在推理时运行。但只有当我们在那段时间使用世界模型的任何输出时，这才有意义，但据我所知，我们并不这样做。也许有人能为我澄清这一点。

machine-learning

reinforcement-learning

1个回答

1
投票

在论文的第 4 页上，他们提到模型的输入是来自相应 Atari 游戏的 4 个帧，因此我会假设这是他们的观察空间。您所讨论的“随机模型”部分只是提到使用附加模型（变分自动编码器 VAE）的可能性，其输出被传递到预测模型（CNN），从而在未来帧和奖励中产生更高质量的预测。如果您感兴趣的话，VAE 的细节值得研究。

论文《Atari 基于模型的强化学习》中代理的输入是什么，为什么世界模型在推理时运行？ [已关闭]

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1