Weka:如何转换与列车数据属性一致的测试数据属性?

问题描述 投票:-1回答:1

我正在做文本分类任务。

我用火车文本数据构建了一个分类器,有1700多个属性(单词)。但是,我的测试数据只有500多个属性(单词),当我在上面的模型上运行测试数据时,它会抛出一个Train and test set are not compatible异常。我怎样才能转换与列车数据一致的测试数据属性?

weka text-classification
1个回答
0
投票

脱离我的头顶:

计算每个数据文件中的行数,记下行数。

将train和test文件一起复制到一个文件中,应用StringToWordVector Filter。

暂时删除导致的那个巨大稀疏矩阵的上部~75%(确切的值可能是73.4542%或其他)。

将对应于已转换数据集的较低25%的剩余记录(这些行代表原始测试集)导出到其自己的.arff文件中。

现在撤消上限75%的删除操作。反转选择。删除对应于测试集的较低25%。

运行分类器。

通过加载上面导出的新arff文件,将模型应用于测试集。

© www.soinside.com 2019 - 2024. All rights reserved.