如何标准化具有一定平均值和标准差的数据集?
我知道有类似sklearn.preprocessing.StandardScaler
的软件包,但此软件包仅允许我们使用数据集自己的均值和标准差值对数据集进行标准化。如果我想使用自己指定的均值和标准差值对数据集进行标准化怎么办?
Python中有我可以使用的软件包吗?否则,我想到的一种方法是针对每个特征手动执行此操作(即,数据集中每个特征的(X-mean)/(stddev)
,其中mean
=我自己指定的平均值,stddev
=我自己指定的标准偏差值)。
提前感谢。
sklearn.preprocessing.StandardScaler存在的原因是用于诸如按需数据机器学习之类的事情。它用于管道中。它本身可以工作,但这是在tac上使用污泥锤。您描述的方式是重新缩放数据的唯一方式,因为您认为自己适合自己的参数。我唯一的建议是使用数组。由于数组会自动将其操作投影到其所有条目,因此代码看起来更好。
import numpy
data = numpy.array([1,2,3,34,2,2,3,43,4,3,2,3,4,4,5,56,6,43,32,2,2])
#Custom mean and std.
new_data = (data-10)/5
#Using the array's mean and std.
new_data = (data-data.mean())/data.std()