我有一个5个特征的数据集。其中有两个特征非常相似,但最小值和最大值不一样。
... | feature 2 | feature 3 | ...
--------------------------------
..., 208.429993, 206.619995, ...
..., 207.779999, 205.050003, ...
..., 206.029999, 203.410004, ...
..., 204.429993, 202.600006, ...
..., 206.429993, 204.25, ...
feature 3
总是小于 feature 2
并且在缩放后保持这种状态是很重要的。但是,由于特征2和特征3没有完全一样的 min
和 max
值,缩放后,它们的最小值和最大值默认都是0和1。这样一来,数值之间的关系就会被消除。事实上,在缩放之后,第一个样本会变成。
... | feature 2 | feature 3 | ...
--------------------------------
..., 0.00268, 0.00279, ...
这是我不希望看到的 我似乎找不到一种方法来手动改变最小值和最大值的 MinMaxScaler
. 还有其他一些丑陋的黑客,比如操作数据,把feature2和feature3合二为一进行缩放,之后再拆分。但我想先了解一下,有没有一种解决方案,是由 sklearn
例如对多个特征使用相同的最小和最大值。
否则,最简单的变通方法就可以了。