论文《Atari 基于模型的强化学习》中代理的输入是什么,为什么世界模型在推理时运行? [已关闭]

问题描述 投票:0回答:1

我目前正在阅读论文“Atari 基于模型的强化学习”(链接:https://arxiv.org/abs/1903.00374)。但是,他们没有指定具体使用什么作为代理的输入。

我相信它是观察空间 - 意思是堆叠的框架。在训练期间,这些将由世界模型提供,而在推理时,真实环境将提供它们 - 对吗?然而,他们还在“随机模型”下的第 4 节中指定,该随机模型(据我所知,在某种意义上是世界模型的一部分)在推理时运行。但只有当我们在那段时间使用世界模型的任何输出时,这才有意义,但据我所知,我们并不这样做。也许有人能为我澄清这一点。

machine-learning reinforcement-learning
1个回答
1
投票

在论文的第 4 页上,他们提到模型的输入是来自相应 Atari 游戏的 4 个帧,因此我会假设这是他们的观察空间。 您所讨论的“随机模型”部分只是提到使用附加模型(变分自动编码器 VAE)的可能性,其输出被传递到预测模型(CNN),从而在未来帧和奖励中产生更高质量的预测。 如果您感兴趣的话,VAE 的细节值得研究。

© www.soinside.com 2019 - 2024. All rights reserved.