用越来越多的反馈更新Beta的alpha和beta参数

Question

我正在根据大学项目的客户反馈对在线内容进行排名。为此，我将每个内容与先前的alpha和beta参数相关联，并根据收到的反馈更新这些内容。随着我模拟越来越多的试验，alpha和beta参数的值不断增加。我希望我的模型对最近的客户行为有更强的反应性，因此在我的更新中，我将先前的参数衰减了0.9倍，并将最后一天的alpha，beta相加（作为一阶不均匀线性差异方程式）。

由于衰减，模型忘记了某些内容不是最理想的，而是尝试再次探索它，从而导致某些循环行为。有没有更好的方法来解决这个问题？我只是尝试查看上个月的数据来构建我的分布，但这似乎也“令人难忘”。如何确保alpha / beta太大，同时确保模型具有反应性并且不会忘记次优策略？

Answer 1

无论您对模型进行什么更改，都必须在其反应性和保留的内存之间进行权衡。模型将不可能保留所有内容并仍然追赶客户行为。例如，如果模型保留了所有内容，那么即使客户行为发生了变化，它也没有理由尝试其他方法。另一方面，为了保持反应性，该模型确实需要继续尝试次优臂，以检查其中一个臂是否没有变得最佳，即使这可能会使它产生一些额外的遗憾。请注意，在非固定设置下，将无法执行与固定设置一样好的设置。

您已经尝试了两种方法来赋予较新数据更多的权重：折现（系数为0.9）和仅考虑最近n天的数据。如果发现使用这些参数值使您的模型过于健忘，则可以尝试增加折扣因子或数字n（您考虑的天数）。

随着您增加这些参数，您的模型将变得更少健忘和更少的反应性。您需要找到适合您的价值。另外，可能无法同时实现您希望的反应性和健忘性。

希望这会有所帮助！

用越来越多的反馈更新Beta的alpha和beta参数

问题描述投票：4回答：1

1个回答

最新问题

用越来越多的反馈更新Beta的alpha和beta参数

问题描述 投票：4回答：1

1个回答

最新问题

问题描述投票：4回答：1