需要在训练和测试数据分割后验证数据集的IID并进行统计测试以确保分布相同吗？]

问题描述投票：0回答：1

我知道大多数机器学习算法都是基于这样的假设，即输入数据是IID（独立相同的分布）。因此，我们通常不执行统计测试来比较测试和训练数据的统计信息。

实际上，严格来说，我们不能保证数据拆分的分布相同。通过不检查两个数据集的分布，会发生概念偏移（或数据偏移）。因此，我们的模型无法准确执行。但是，大多数网站帖子和教科书都没有涵盖此内容。

需要在训练和测试数据分割后验证IID并进行统计比较吗？例如两样本测试以比较训练数据集和测试数据集的均值]

我知道大多数机器学习算法都是基于这样的假设，即输入数据是IID（独立相同的分布）。因此，我们通常不对...

machine-learning

deep-learning

artificial-intelligence

training-data

statistical-test

1个回答

0
投票

[假设您的原始数据（分割前）是IID并且它很大，您可以证明由随机分割引起的分割也是IID，这可以直观地看到，如果测试数据，分割后获得的iid样本是从初始数据中提取的一个iid样本，因此在此数据的任何顺序上它都具有相同的动量，因此它们具有相同的分布，这是独立的这一事实与采样过程有关它本身，即独立抽取样本。现在，对于您的数据集很小的情况，这不再成立了，在这种情况下，很多人都可以很好地进行其他train_test拆分，也许最著名和最简单的方法就是使用分层拆分，即您可以很好地拆分数据保留类别的比例，如果使用stratify=True，则可以通过设置参数sklearn.model_selection.train_test_split来实现。可以肯定的是，这种技术不会确保输入的分布在训练和测试之间是相似的，但至少可以确保标签的分布是相似的。]

需要在训练和测试数据分割后验证数据集的IID并进行统计测试以确保分布相同吗？]

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1