有没有一个工具可以为ner进程注释波斯语文本？

问题描述投票：0回答：1

我对nlp和spacy不太了解。但是我想知道如何训练我自己的模型或数据集。我应该使用注释器工具吗？如果是这样，请给我一个指导。谢谢。也很高兴知道我想使用波斯语（“fa”）语言来提取文本中的命名实体。

我尝试过一些在线网站。但我认为我们应该使用验证，我不知道如何使用，而且我想知道这是否适用于波斯语。

python

machine-learning

nlp

named-entity-recognition

1个回答

0
投票

要训练您自己的模型，您可以从预先存在的模型开始（查看 Huggingface 模型中心），然后使用您自己的数据对它们进行微调。您可以查看本指南，但您会发现多个关于同一主题的指南。

对于NER，您可以使用这个网站来注释数据。

所需注释的数量取决于几个因素：类的数量、文本/实体的复杂性，但根据经验，数百个应该没问题。

然后，您可以在训练/测试中分割数据，或运行交叉验证方法，就像通常的机器学习模型一样。