在做过程预测的时候,我有一个做法,简单总结如下:
首先将eventlog转化为n个时间点*m个活动生成一个n*m维的矩阵,然后在这个矩阵的每个节点生成当前活动的True/false预测。
现在我想评估这种方法的性能,我使用前70%的数据作为训练集,后30%作为测试集并对其进行预测。
我尝试了两种预测方式:
首先,预测特定活动的所有时间点。
第二,预测某个时间点的所有活动。
并使用 confusimMatrix 生成混淆矩阵和相关指标,但结果都表现得非常好。例如,在某个时间点的预测是这样的:
Accuracy Kappa AccuracyLower AccuracyUpper AccuracyNull
1.0000000 NaN 0.9902885 1.0000000 1.0000000
AccuracyPValue McnemarPValue
1.0000000 NaN
或
Accuracy Kappa AccuracyLower AccuracyUpper AccuracyNull
1.000000e+00 1.000000e+00 9.902885e-01 1.000000e+00 9.338624e-01
AccuracyPValue McnemarPValue
5.847070e-12 NaN
我现在想知道的是,我做出的预测是否有效?我的预测是否导致了过于乐观的结果?为什么所有的预测看起来都“那么好”而且不切实际?或者这是我应该期待的结果?
任何建议将不胜感激!