如何从头开始为BIOES / BILOU格式的自定义多类standfordNLP / Stanza NER标记模型构建训练数据集?

问题描述 投票:1回答:1

我正在将NLP用于自定义应用程序,并且我想在当前称为Stanza的StanfordNLP中训练自己的NER标记器模型。

默认模型仅限于非常通用的标签,例如LOC,PER,MISC,COUNTRY,TIME等。>>

我的自定义标签更具体。食品,体育,软件,品牌。我如何格式化从网上或从BIOES / BILOU格式的PDF文件中抓取的数据?https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)

我是否必须手动标记它们?或编写脚本以如下所示的格式生成数据:

Alex S-PER
is O
playing O
basketball I-SPORT
with O
Marty B-PER
. O
Rick E-PER
likes O
to O
eat O
Pizza I-FOOD
in O
Los B-LOC
Angeles E-LOC

如果是,那么我可以在Python中使用哪些工具和库?

先谢谢您。

我正在将NLP用于自定义应用程序,我想在目前称为Stanza的StanfordNLP中训练自己的NER标记器模型。默认模型仅限于非常通用的标签,例如LOC,PER,...

python nlp stanford-nlp ner stanza
1个回答
0
投票

您可以编写一段代码来实现此任务。

© www.soinside.com 2019 - 2024. All rights reserved.