Weka：如何转换与列车数据属性一致的测试数据属性？

问题描述投票：-1回答：1

我正在做文本分类任务。

我用火车文本数据构建了一个分类器，有1700多个属性（单词）。但是，我的测试数据只有500多个属性（单词），当我在上面的模型上运行测试数据时，它会抛出一个Train and test set are not compatible异常。我怎样才能转换与列车数据一致的测试数据属性？

weka

text-classification

1个回答

0
投票

脱离我的头顶：

计算每个数据文件中的行数，记下行数。

将train和test文件一起复制到一个文件中，应用StringToWordVector Filter。

暂时删除导致的那个巨大稀疏矩阵的上部~75％（确切的值可能是73.4542％或其他）。

将对应于已转换数据集的较低25％的剩余记录（这些行代表原始测试集）导出到其自己的.arff文件中。

现在撤消上限75％的删除操作。反转选择。删除对应于测试集的较低25％。

运行分类器。

通过加载上面导出的新arff文件，将模型应用于测试集。