[实施小型批量梯度下降时,更好地选择训练样本-计算导数-更好?还是改组整个培训样本然后遍历它们并每次都改组会更好?第一种方法可能使我们跳过全局最小值。
对输入数据进行排序将意味着在一组非代表性的输入上训练模型。您已更改了分布-可能相当大。
当您使用更标准的方法从整个数据集中随机选择(并且希望代表)批次时,仍然有可能跳过全局最小值。有很多方法可以减少这种机会。您可能需要查看渐变调整以减小步长,例如simulated annealing。
simulated annealing