在哪种情况下,交叉熵优于均方误差? [关闭]

问题描述 投票:36回答:3

尽管以上两种方法都为更好的预测接近度提供了更好的分数,但仍然优选交叉熵。是在每种情况下还是在某些特殊情况下,我们都倾向于使用交叉熵而不是MSE?

machine-learning neural-network backpropagation mean-square-error cross-entropy
3个回答
43
投票

分类首选[交叉熵],而回归的均方误差是最佳选择之一。这直接来自问题本身的陈述-在分类中,您使用非常特殊的可能的输出值集,因此MSE定义不正确(因为它不具备此类知识,因此以不兼容的方式惩罚错误)。为了更好地理解现象,最好遵循并理解之间的关系

    交叉熵
  1. 逻辑回归(二元交叉熵)
  2. 线性回归(MSE)
  • 您将注意到,这两者都可以看作是最大似然估计量,只是对因变量的假设不同。

  • 31
    投票
    当从概率和分布的角度推导成本函数时,您可以观察到,假设误差服从正态分布,则MSE发生,而假设二项式分布时,则交叉熵。这意味着,当您使用MSE时,隐式地进行了回归(估计),而当使用CE时,则进行了分类。希望它能有所帮助。

    8
    投票
    例如,如果进行逻辑回归,则将使用S型函数来估计概率,将交叉熵用作损失函数,并使用梯度下降来将其最小化。这样做但将MSE用作损失函数可能会导致非凸问题,您可能会发现局部极小值。使用交叉熵会导致凸问题,您可能会在其中找到最佳解决方案。

    https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

    这里还有一个有趣的分析:https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/

    © www.soinside.com 2019 - 2024. All rights reserved.