如何从头开始为BIOES / BILOU格式的自定义多类standfordNLP / Stanza NER标记模型构建训练数据集？

Question

我正在将NLP用于自定义应用程序，并且我想在当前称为Stanza的StanfordNLP中训练自己的NER标记器模型。

默认模型仅限于非常通用的标签，例如LOC，PER，MISC，COUNTRY，TIME等。>>

我的自定义标签更具体。食品，体育，软件，品牌。我如何格式化从网上或从BIOES / BILOU格式的PDF文件中抓取的数据？https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)

我是否必须手动标记它们？或编写脚本以如下所示的格式生成数据：

Alex S-PER is O playing O basketball I-SPORT with O Marty B-PER . O Rick E-PER likes O to O eat O Pizza I-FOOD in O Los B-LOC Angeles E-LOC

如果是，那么我可以在Python中使用哪些工具和库？

先谢谢您。

我正在将NLP用于自定义应用程序，我想在目前称为Stanza的StanfordNLP中训练自己的NER标记器模型。默认模型仅限于非常通用的标签，例如LOC，PER，...

Answer 1

0
投票

您可以编写一段代码来实现此任务。