测试数据集的规范化

问题描述 投票:0回答:1

我有train(x_train)和test(x_test)数据集,但是我不确定如何规范化它。

第一个选择是使用火车数据集的均值和偏差:

(x_train-np.mean(x_train))/np.std(x_train)
(x_test-np.mean(x_train))/np.std(x_train)

第二种选择是将x_train和x_test结合起来以获得总体均值和偏差:

x=np.vstack((x_train,x_test))
(x_train-np.mean(x))/np.std(x)
(x_test-np.mean(x))/np.std(x)

您能否解释一下如何在这两种方法之间进行选择,它们中的任何一种都不正确吗?

python pandas numpy normalization
1个回答
0
投票

首先,您可以使用sklearn库更轻松地进行规范化。测试数据模拟了要为模型提供新数据的情况。因此,您根本无法与他一起训练模型。您应该找到训练集的均值和标准差,并永久使用它们来标准化训练和测试。这是您的第一选择

© www.soinside.com 2019 - 2024. All rights reserved.