线性回归::标准化(Vs)标准化

问题描述 投票:21回答:3

我使用线性回归来预测数据。但是,当我标准化(Vs)标准化变量时,我得到完全对比的结果。

标准化= x -xmin / xmax - xmin零分标准化= x - xmean / xstd

a) Also, when to Normalize (Vs) Standardize ?
b) How Normalization affects Linear Regression?
c) Is it okay if I don't normalize all the attributes/lables in the linear regression?

谢谢,桑托什

machine-learning linear-regression feature-extraction
3个回答
20
投票

请注意,结果可能不一定如此不同。您可能只需要两个选项的不同超参数来提供类似的结果。

理想的是测试哪种方法最适合您的问题。如果由于某种原因你负担不起,大多数算法可能会比标准化更有利于标准化。

请参阅here,了解一个应该优先于另一个的例子:

例如,在聚类分析中,标准化对于比较基于特定距离度量的特征之间的相似性可能尤其重要。另一个突出的例子是主成分分析,我们通常更喜欢标准化而不是Min-Max缩放,因为我们对最大化方差的组件感兴趣(取决于问题以及PCA是否通过相关矩阵计算组件而不是协方差矩阵;但在我之前的文章中更多关于PCA)。

但是,这并不意味着Min-Max缩放根本没用!一种流行的应用是图像处理,其中像素强度必须被归一化以适合特定范围(即,对于RGB颜色范围,0到255)。而且,典型的神经网络算法需要0-1级的数据。

规范化优于标准化的一个缺点是它丢失了数据中的一些信息,尤其是关于异常值的信息。

同样在链接页面上,有这样的图片:

Plots of a standardized and normalized data set

如您所见,缩放将所有数据聚集在一起非常接近,这可能不是您想要的。它可能导致诸如梯度下降之类的算法需要更长的时间才能收敛到它们在标准化数据集上的相同解决方案,或者甚至可能使其变得不可能。

“规范化变量”并没有多大意义。正确的术语是“规范化/缩放特征”。如果要对一个功能进行标准化或缩放,则应对其余功能执行相同操作。


8
投票

这是有道理的,因为规范化和标准化做了不同的事情。

规范化将数据转换为0到1之间的范围

标准化转换您的数据,使得结果分布的均值为0,标准差为1

规范化/标准化旨在实现类似的目标,即创建彼此具有相似范围的特征。我们希望如此,因此我们可以确定我们正在捕获特征中的真实信息,并且我们不会因为其值远大于其他特征而对特定特征进行权衡。

如果您的所有功能都在相似的范围内,则不需要标准化/规范化。但是,如果某些特征自然地采用比其他特征大得多/小的值,则需要进行标准化/标准化

如果您要对至少一个变量/特征进行规范化,我也会对所有其他变量/特征做同样的事情


3
投票

第一个问题是我们为什么需要标准化/标准化?

=>我们以数据集为例,我们有薪资变量和年龄变量。年龄可以在0到90之间,薪水可以从25,000到2.5万。

我们比较2人的差异然后年龄差异将在100以下的范围内,工资差异将在数千的范围内。

因此,如果我们不希望一个变量支配其他变量,那么我们使用标准化或标准化。现在年龄和薪水都会达到相同的规模,但是当我们使用标准化或标准化时,我们会失去原始值并将其转换为某些值。所以当我们想从我们的数据中得出推论时,失去解释但非常重要。

归一化将值重新调整为[0,1]范围。也称为min-max缩放。

标准化将数据重新调整为平均值(μ)为0,标准差(σ)为1.因此,它给出了正态图。

enter image description here

示例如下:

enter image description here

另一个例子:

enter image description here

在上面的图像中,您可以看到我们的实际数据(绿色)是b / w 1到6,标准化数据(红色)分布在-1到3左右,而标准化数据(蓝色)分布在0到1左右。

通常,许多算法要求您在作为参数传递之前首先标准化/规范化数据。就像在PCA中一样,我们通过将3D数据绘制成1D(例如)来减少尺寸。我们需要标准化。

但在图像处理中,需要在处理之前对像素进行标准化。但是在归一化期间,我们会丢失异常值(极端数据点 - 太低或太高),这是一个轻微的缺点。

所以这取决于我们的偏好我们选择的是什么,但最常推荐标准化,因为它给出了正常的曲线。

© www.soinside.com 2019 - 2024. All rights reserved.