在哪种情况下，交叉熵优于均方误差？ [关闭]

尽管以上两种方法都为更好的预测接近度提供了更好的分数，但仍然优选交叉熵。是在每种情况下还是在某些特殊情况下，我们都倾向于使用交叉熵而不是MSE？

43
投票

分类首选[交叉熵]，而回归的均方误差是最佳选择之一。这直接来自问题本身的陈述-在分类中，您使用非常特殊的可能的输出值集，因此MSE定义不正确（因为它不具备此类知识，因此以不兼容的方式惩罚错误）。为了更好地理解现象，最好遵循并理解之间的关系

交叉熵
逻辑回归（二元交叉熵）
线性回归（MSE）
您将注意到，这两者都可以看作是最大似然估计量，只是对因变量的假设不同。

31
投票

当从概率和分布的角度推导成本函数时，您可以观察到，假设误差服从正态分布，则MSE发生，而假设二项式分布时，则交叉熵。这意味着，当您使用MSE时，隐式地进行了回归（估计），而当使用CE时，则进行了分类。希望它能有所帮助。

8
投票

例如，如果进行逻辑回归，则将使用S型函数来估计概率，将交叉熵用作损失函数，并使用梯度下降来将其最小化。这样做但将MSE用作损失函数可能会导致非凸问题，您可能会发现局部极小值。使用交叉熵会导致凸问题，您可能会在其中找到最佳解决方案。