数据传播在机器学习中是好是坏，为什么？

问题描述投票：0回答：1

我是机器学习的新手，我知道标准差是一个描述数据如何传播的数字，但如果传播度高对模型是否有好处，我们如何解决这个问题？

python

pandas

numpy

machine-learning

data-science

1个回答

0
投票

如维基百科说："标准差是衡量一组数值的变化量或分散度的标准。

标准差是衡量一组数值的变化量或分散度的标准。低标准差表示数值往往接近于一组数值的平均值（也称为期望值），而高标准差则表示数值分布在更大的范围内。

这意味着一般来说，标准差只是一个统计量，包含了一些关于你的数据分布的信息。由于机器学习有很多分支和领域，所以说我们希望数据是分散的或者是集中的，这不是很正确。

在一些应用中，比如分类，如果每个类的数据都比较集中在平均数附近（前提是类的平均数不同），你就可以用更高的精度来分类。

你可以简单地通过将整个数据除以某个数字来降低其标准差，但这也会降低你的类中心之间的距离，这意味着这对你没有任何好处。

数据传播在机器学习中是好是坏 ，为什么？