我们如何使用Weka计算集群的准确性?
我可以用这个公式:
Accuracy (A) = (tp+tn)/Total # samples
但我如何知道Weka工具实验输出中的真正积极,假阳性,真阴性和假阴性是什么?
Weka中有一些不同的聚类模式:
使用训练集(默认):集群后,Weka将训练实例分类为它开发的集群,并计算落入每个集群的实例百分比。例如,集群0中的X%和集群1中的Y%等。
提供的测试集:如果集群表示像EM算法那样具有概率性,Weka可以在单独的测试数据上评估聚类。
使用类进行聚类评估:在此模式下,Weka首先忽略类属性并生成聚类。在测试期间,它根据每个集群中类属性的多数值为集群分配类标签。最后,它计算分类错误并显示相应的混淆矩阵。
看看cross-validation原则。在java代码中使用ClusterEvaluation的方法crossValidateModel和evaluateClusterer。或者您也可以直接使用weka GUI进行实验。