训练非英语斯坦福NER模型

问题描述 投票:1回答:2

我正在看几篇关于为其他语言培训斯坦福NER的帖子。

例如:https://blog.sicara.com/train-ner-model-with-nltk-stanford-tagger-english-french-german-6d90573a9486

但是,Stanford CRF-Classifier使用一些与语言相关的功能(例如:Part Of Speech标签)。

我们真的可以使用相同的Jar文件训练非英语模型吗? https://nlp.stanford.edu/software/crf-faq.html

stanford-nlp ner french
2个回答
1
投票

训练NER分类器与语言无关。您必须提供高质量的培训数据并创建有意义的功能。关键是,并非所有功能对每种语言都同样有用。例如,资本化是英语命名实体的一个很好的指标。但在德语中,所有名词都是大写的,这使得这些特征变得不那么有用。

在Stanford NER中,您可以决定分类器必须使用哪些功能,因此您可以禁用POS标记(事实上,默认情况下它们被禁用)。当然,您也可以用您想要的语言提供自己的POS标签。

我希望我能澄清一些事情。


1
投票

我同意先前的评论,即NER分类模型与语言无关。

如果您对训练数据有疑问,我可以建议您使用针对不同语言的大量标记数据集的link

如果你想尝试另一种模型,我建议ESTNLTK - 爱沙尼亚语的库,但它可以适合语言独立的神经模型(documentation)。另外,here你可以找到如何使用spaCy训练ner模型的例子。

我希望它有所帮助。祝好运!

© www.soinside.com 2019 - 2024. All rights reserved.