我们正在处理大量文档(类似于产品说明),并希望弄清它们是否引用了给定的主题(例如赌博)。我们当前的方法是手动定义一组关键字,然后使用Spacy的词组匹配器查找所有匹配。我们使用所有预先训练的属性,例如Lower和lemma。然而,该过程不是很有效。还有其他可用的库吗?还是根本不同的方法?
由于我们没有数据可以自己训练模型,因此我们正在寻找预先训练的模型。
包括使用NLTK的词干(Lancaster和Snowball)的其他方法。
另一个要求是语言(文本为英语,德语,意大利语和法语)。
[您可能要考虑将文本分类程序添加到spacy管道。在https://spacy.io/usage/training#textcat中查看详细信息>