分析WEKA上的数据集

我是WEKA的新手，如果有人能帮助我理解我是否正确使用WEKA，我会问你。

1）我的数据集包括11377记录，分类如下：

（由于某种原因，我只能使用J48算法进行分类）当我选择J48算法进行分类时，模型将类别“NO”错误地分类，因为类分布是不平衡的。我该怎么做才能以正确的方式解决这个问题？

2）在平衡了类之后，我必须将数据集分成测试集和训练集，但是WEKA的最佳/正确过滤器是什么问题？

3）当数据通过预处理阶段后，一旦选择了Classify表格中的J48算法，我应该测试什么？训练或测试集？我有多少次重复测试？

提前致谢！

0
投票

这是一种方法。在“预处理”选项卡中，使用ClassBalancer过滤器（在“受监督的实例”下）。这将应用权重，以便您的YES和NO具有相同的权重。

在“分类”选项卡中，选择“训练”和“测试”之间的百分比分割。默认值为66％训练，34％测试。这将随机选择。

（如果您想查看结果是否取决于完全随机分割，您可以使用不同的随机开始多次运行 - 在百分比分割下，您将看到“更多选项”按钮。单击此处，您将看到随机种子设置为默认值1.将此更改为任何其他正整数。）

您应该能够从几种算法中进行选择，而不仅仅是J48。不知道为什么会这样。

请注意，一旦得到结果，这些将反映加权实例，您可能需要进行转换（即采用该混淆矩阵并将其转换回实际的YES和NO数）。