我对nlp和spacy不太了解。但是我想知道如何训练我自己的模型或数据集。我应该使用注释器工具吗?如果是这样,请给我一个指导。谢谢。 也很高兴知道我想使用波斯语(“fa”)语言来提取文本中的命名实体。
我尝试过一些在线网站。但我认为我们应该使用验证,我不知道如何使用,而且我想知道这是否适用于波斯语。
要训练您自己的模型,您可以从预先存在的模型开始(查看 Huggingface 模型中心),然后使用您自己的数据对它们进行微调。您可以查看本指南,但您会发现多个关于同一主题的指南。
对于NER,您可以使用这个网站来注释数据。
所需注释的数量取决于几个因素:类的数量、文本/实体的复杂性,但根据经验,数百个应该没问题。
然后,您可以在训练/测试中分割数据,或运行交叉验证方法,就像通常的机器学习模型一样。