多臂强盗：当随机概率低于分配给强盗的成功概率时，为什么我们将奖励增加1

Question

我试图了解使用python的多臂强盗问题。当随机概率小于分配的强盗的成功概率时，我不断遇到返回值1（即奖励）的代码片段。请看下面的代码

def reward(prob):
    reward = 0;
    for i in range(10):
        if random.random() < prob:
            reward += 1
    return reward

我从以下链接获得了这个：http://outlace.com/rlpart1.html

另外我在另一个github页面上看到了类似的东西。基于第一个链接，奖励函数背后的直觉是什么（它与实际的一个武装强盗的直觉类似），最后为什么当它小于概率时我们分配1的奖励。除非我弄错了，否则它应该是相反的。谢谢。

Answer 1

如果您有关于选择了哪个手臂和成功标签的实际数据，则此奖励功能将不存在。

我的理解是你这样做是因为你没有实际的数据响应数据。换句话说，你展示一只手臂，你不知道它们是否导致成功（1）与否（0）。

所以你假设，如果概率是0.7，那么你获得的几率是70％。就像伯努利变量一样，成功概率为0.7。这个random.random（）只是供你实现。概率（手臂的成功概率）越大，获得奖励的机会就越大。