我有离散动作空间,代理可以在其中降低或减少某个值。但是,我不希望代理将值更改为固定量(例如“将值增加 2”),而是希望代理动态选择它想要增加或减少某个值的量。我该如何解决这个问题?
您的代理可以降低/增加价值多少?
例如,如果它可以改变 +5/-5,那么您可以输出分类分布的概率,其中分布的支持是 [-5, 5] 之间的整数(例如通过最后一层上的 softmax),例如代理可以“动态”选择该值。
但是,如果变化的幅度较高(-1000/+1000),我建议让您的代理输出连续值,然后您自己对它们进行舍入。如果变化的幅度很大,那么在舍入时对目标值执行 -1 或 +1 可能并不重要。