用数学符号表示的强化学习中的连续状态空间和连续动作空间的例子是什么?

问题描述 投票:1回答:1

它们如何用数学符号表示?

python reinforcement-learning bandit
1个回答
0
投票

离散状态空间->其中状态可以具有有限值。例如,如果只有三种类型的天气:晴天,大雾或下雨,则这类似于具有三个离散值的状态空间

连续状态空间->状态可以具有无限值例如,对于汽车,我们可以将状态表示为(x,y,θ,x,˙y,˙˙θ),包括其位置(x,y);方向θ; x和y方向的速度x˙和˙y;和角速度˙θ。

因此,S = R ^ 6,是一组无限的状态,因为存在无限可能的位置和方向对于汽车

© www.soinside.com 2019 - 2024. All rights reserved.