多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1

问题描述 投票:0回答:1

我试图了解使用python的多臂强盗问题。当随机概率小于分配的强盗的成功概率时,我不断遇到返回值1(即奖励)的代码片段。请看下面的代码

def reward(prob):
    reward = 0;
    for i in range(10):
        if random.random() < prob:
            reward += 1
    return reward

我从以下链接获得了这个:http://outlace.com/rlpart1.html

另外我在另一个github页面上看到了类似的东西。基于第一个链接,奖励函数背后的直觉是什么(它与实际的一个武装强盗的直觉类似),最后为什么当它小于概率时我们分配1的奖励。除非我弄错了,否则它应该是相反的。谢谢。

python machine-learning reinforcement-learning bandit
1个回答
0
投票

如果您有关于选择了哪个手臂和成功标签的实际数据,则此奖励功能将不存在。

我的理解是你这样做是因为你没有实际的数据响应数据。换句话说,你展示一只手臂,你不知道它们是否导致成功(1)与否(0)。

所以你假设,如果概率是0.7,那么你获得的几率是70%。就像伯努利变量一样,成功概率为0.7。这个random.random()只是供你实现。概率(手臂的成功概率)越大,获得奖励的机会就越大。

© www.soinside.com 2019 - 2024. All rights reserved.