如何测试数据集是否具有代表性?

问题描述 投票:1回答:1

例如,我收集了1000个具有10个独立变量的样本,其中我采用了其中一个(适用条件)创建目标类。现在,要获取最终的数据集,我已经删除了一个选定的属性并添加了目标类。最终数据集具有9个独立变量和1个相关变量(目标变量)。现在有一种统计方法可以让我知道最终数据集是否足够具有代表性?谢谢你。

machine-learning dataset data-mining
1个回答
0
投票

[尝试将数据集分为训练集(800个)和测试集(200个)。

通过教师培训,训练尽可能多的不同模型(随机森林,SVM,knn等)。尝试为每个模型选择最佳训练参数。

如果有一个模型在火车组和测试组上都能很好地起作用,那么数据集就足够有代表性。否则,您需要增加数据集。

ps.s。也许当前的数据集也需要进行预处理:缩放属性,删除重复项等。

© www.soinside.com 2019 - 2024. All rights reserved.