需要在训练和测试数据分割后验证数据集的IID并进行统计测试以确保分布相同吗?]

问题描述 投票:0回答:1
我知道大多数机器学习算法都是基于这样的假设,即输入数据是IID(独立相同的分布)。因此,我们通常不执行统计测试来比较测试和训练数据的统计信息。

实际上,严格来说,我们不能保证数据拆分的分布相同。通过不检查两个数据集的分布,会发生概念偏移(或数据偏移)。因此,我们的模型无法准确执行。但是,大多数网站帖子和教科书都没有涵盖此内容。

需要在训练和测试数据分割后验证IID并进行统计比较吗?例如两样本测试以比较训练数据集和测试数据集的均值]

我知道大多数机器学习算法都是基于这样的假设,即输入数据是IID(独立相同的分布)。因此,我们通常不对...

machine-learning deep-learning artificial-intelligence training-data statistical-test
1个回答
0
投票
[假设您的原始数据(分割前)是IID并且它很大,您可以证明由随机分割引起的分割也是IID,这可以直观地看到,如果测试数据,分割后获得的iid样本是从初始数据中提取的一个iid样本,因此在此数据的任何顺序上它都具有相同的动量,因此它们具有相同的分布,这是独立的这一事实与采样过程有关它本身,即独立抽取样本。现在,对于您的数据集很小的情况,这不再成立了,在这种情况下,很多人都可以很好地进行其他train_test拆分,也许最著名和最简单的方法就是使用分层拆分,即您可以很好地拆分数据保留类别的比例,如果使用stratify=True,则可以通过设置参数sklearn.model_selection.train_test_split来实现。可以肯定的是,这种技术不会确保输入的分布在训练和测试之间是相似的,但至少可以确保标签的分布是相似的。]
© www.soinside.com 2019 - 2024. All rights reserved.