NLP-使主题与文档匹配

问题描述 投票:0回答:1

我们正在处理大量文档(类似于产品说明),并希望弄清它们是否引用了给定的主题(例如赌博)。我们当前的方法是手动定义一组关键字,然后使用Spacy的词组匹配器查找所有匹配。我们使用所有预先训练的属性,例如Lower和lemma。然而,该过程不是很有效。还有其他可用的库吗?还是根本不同的方法?

由于我们没有数据可以自己训练模型,因此我们正在寻找预先训练的模型。

包括使用NLTK的词干(Lancaster和Snowball)的其他方法。

另一个要求是语言(文本为英语,德语,意大利语和法语)。

python nlp nltk spacy lemmatization
1个回答
0
投票

[您可能要考虑将文本分类程序添加到spacy管道。在https://spacy.io/usage/training#textcat中查看详细信息>

© www.soinside.com 2019 - 2024. All rights reserved.