实际上,严格来说,我们不能保证数据拆分的分布相同。通过不检查两个数据集的分布,会发生概念偏移(或数据偏移)。因此,我们的模型无法准确执行。但是,大多数网站帖子和教科书都没有涵盖此内容。
需要在训练和测试数据分割后验证IID并进行统计比较吗?例如两样本测试以比较训练数据集和测试数据集的均值]
我知道大多数机器学习算法都是基于这样的假设,即输入数据是IID(独立相同的分布)。因此,我们通常不对...
stratify=True
,则可以通过设置参数sklearn.model_selection.train_test_split
来实现。可以肯定的是,这种技术不会确保输入的分布在训练和测试之间是相似的,但至少可以确保标签的分布是相似的。]