使用 tf.distribute.MirroredStrategy 时的有效学习率（一台主机，多 GPU）

问题描述投票：0回答：1

当使用 tf.distribute.MirroredStrategy（一台主机，多 GPU）时，有效学习率是所需的学习率乘以 GPU 的数量（将学习率乘以 GPU 的数量），或者只是所需的学习率仅使用一个 GPU？

例如，如果我在使用 1 个 GPU 时想要学习率 = 1E-3，我只需使用学习率 = 1E-3 （不使用 tf.distribute.MirroredStrategy）；如果我使用 tf.distribute.MirroredStrategy 和 8 个 GPU，我应该设置学习率 = 8E-3 (8 * 1E-3)，同样的方式，当我扩展到 8 个 GPU 时，我应该将批量大小乘以 8，或者应该我就用1E-3作为学习率？