在LSTM中应该在训练和测试集中拆分之前还是之后进行归一化？

Question

通常，当使用NN时，我以这种形式进行归一化：

scaler = StandardScaler()
train_X = scaler.fit_transform( train_X )
test_X = scaler.transform( test_X )

也就是说，我在分割后进行归一化，所以从测试仪到火车仪没有泄漏。但是我在使用LSTM时对此表示怀疑。

想象一下，我在LSTM中设置的训练中的最后一个序列是X = [x6，x7，x8]，Y = [x9]。

然后，我在测试集中的第一个序列应为X = [x7，x8，x9]，Y = [x10]。

因此，如果我最终在测试集的X中混合了来自两个集合的值，那么在分割后对数据进行归一化是否有意义？还是我应该先使用

规范化整个数据集

scaler = StandardScaler()
data = scaler.fit_transform( data )

然后进行拆分？

Answer 1

您显示的规范化过程是解决每个机器学习问题的唯一正确方法，而LSTM绝不是例外。