用越来越多的反馈更新Beta的alpha和beta参数

问题描述 投票:4回答:1

我正在根据大学项目的客户反馈对在线内容进行排名。为此,我将每个内容与先前的alpha和beta参数相关联,并根据收到的反馈更新这些内容。随着我模拟越来越多的试验,alpha和beta参数的值不断增加。我希望我的模型对最近的客户行为有更强的反应性,因此在我的更新中,我将先前的参数衰减了0.9倍,并将最后一天的alpha,beta相加(作为一阶不均匀线性差异方程式)。

由于衰减,模型忘记了某些内容不是最理想的,而是尝试再次探索它,从而导致某些循环行为。有没有更好的方法来解决这个问题?我只是尝试查看上个月的数据来构建我的分布,但这似乎也“令人难忘”。如何确保alpha / beta太大,同时确保模型具有反应性并且不会忘记次优策略?

machine-learning math statistics reinforcement-learning beta-distribution
1个回答
0
投票

无论您对模型​​进行什么更改,都必须在其反应性和保留的内存之间进行权衡。模型将不可能保留所有内容并仍然追赶客户行为。例如,如果模型保留了所有内容,那么即使客户行为发生了变化,它也没有理由尝试其他方法。另一方面,为了保持反应性,该模型确实需要继续尝试次优臂,以检查其中一个臂是否没有变得最佳,即使这可能会使它产生一些额外的遗憾。请注意,在非固定设置下,将无法执行与固定设置一样好的设置。

您已经尝试了两种方法来赋予较新数据更多的权重:折现(系数为0.9)和仅考虑最近n天的数据。如果发现使用这些参数值使您的模型过于健忘,则可以尝试增加折扣因子或数字n(您考虑的天数)。

随着您增加这些参数,您的模型将变得更少健忘和更少的反应性。您需要找到适合您的价值。另外,可能无法同时实现您希望的反应性和健忘性。

希望这会有所帮助!

© www.soinside.com 2019 - 2024. All rights reserved.