奖励矩阵中的状态和奖励是什么？

Question

此代码：

R = ql.matrix([ [0,0,0,0,1,0],
        [0,0,0,1,0,1],
        [0,0,100,1,0,0],
        [0,1,1,0,1,0],
        [1,0,0,1,0,0],
        [0,1,0,0,0,0] ])

来自：

https://github.com/PacktPublishing/Artificial-Intelligence-By-Example/blob/47bed1a88db2c9577c492f950069f58353375cfe/Chapter01/MDP.py

R被定义为“每个状态的奖励矩阵”。此矩阵中的状态和奖励是什么？

# Reward for state 0
print('R[0,]:' , R[0,])

# Reward for state 0
print('R[1,]:' , R[1,])

打印：

R[0,]: [[0 0 0 0 1 0]]
R[1,]: [[0 0 0 1 0 1]]

[0 0 0 0 1 0]状态0和[0 0 0 1 0 1]状态1吗？

Answer 1

根据使用该示例的书，R表示从一个当前状态s到另一个下一个状态s'的转换的奖励。

具体来说，R与下图相关：

R矩阵中的每一行代表从A到F的字母，每列代表从A到F的字母。 1值表示图形的节点。即，R[0,]: [[0 0 0 0 1 0]]表示您可以从状态s=A转到下一个状态s'=E，并获得1的奖励。类似地，R[1,]: [[0 0 0 1 0 1]]意味着您从B到[ C0]或F。目标似乎正在实现并保持在D中，该目标获得最大的回报。

奖励矩阵中的状态和奖励是什么？

问题描述投票：1回答：1

1个回答

最新问题

奖励矩阵中的状态和奖励是什么？

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1