在强化学习中如何处理输入元素数的变化和多个动作?

问题描述 投票:0回答:1

尊敬的组员们,你们好。我有与RL相关的疑问。请帮我指出正确的方向。我是一个相当新的RL,因此我的问题可能听起来很愚蠢,所以请耐心等待。假设例如任务是在画布上排列n个元素。每个元素上可以应用的动作是二维的[上移下移,左移右移]。代理有时间限制来完成任务,一旦时间到了,如果排列正确,就会得到奖励。下一个任务也是一样的,但元素的数量和画布的尺寸可以改变。如何使用RL处理这种情况,因为一个任务和另一个任务之间的元素数量会发生变化,所以动作的数量也会发生变化。

reinforcement-learning
1个回答
0
投票

一个方法你可以根据你游戏的细节来考虑。如果每个元素都有相同的目标和相同的行动,你可以训练一个代理,解决单一元素到达目标。一旦训练完毕,你可以添加更多的元素,并将每个元素通过网络来获得每个元素的动作。我们已经实现了非常类似的东西。它的好处是,你只需要训练一个元素,使它更快。另外,一旦训练完毕,你可以拥有任何数量的元素,代理将能够像有一个元素一样轻松地解决它。这一切都取决于你的游戏细节和你想达到的目的。

© www.soinside.com 2019 - 2024. All rights reserved.