如何实现强化学习代理的动态动作选择

问题描述 投票:0回答:1

我有离散动作空间,代理可以在其中降低或减少某个值。但是,我不希望代理将值更改为固定量(例如“将值增加 2”),而是希望代理动态选择它想要增加或减少某个值的量。我该如何解决这个问题?

machine-learning artificial-intelligence reinforcement-learning
1个回答
0
投票

您的代理可以降低/增加价值多少?

例如,如果它可以改变 +5/-5,那么您可以输出分类分布的概率,其中分布的支持是 [-5, 5] 之间的整数(例如通过最后一层上的 softmax),例如代理可以“动态”选择该值。

但是,如果变化的幅度较高(-1000/+1000),我建议让您的代理输出连续值,然后您自己对它们进行舍入。如果变化的幅度很大,那么在舍入时对目标值执行 -1 或 +1 可能并不重要。

© www.soinside.com 2019 - 2024. All rights reserved.