我正在将NLP用于自定义应用程序,并且我想在当前称为Stanza的StanfordNLP中训练自己的NER标记器模型。
默认模型仅限于非常通用的标签,例如LOC,PER,MISC,COUNTRY,TIME等。>>
我的自定义标签更具体。食品,体育,软件,品牌。我如何格式化从网上或从BIOES / BILOU格式的PDF文件中抓取的数据?https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)
我是否必须手动标记它们?或编写脚本以如下所示的格式生成数据:
Alex S-PER is O playing O basketball I-SPORT with O Marty B-PER . O Rick E-PER likes O to O eat O Pizza I-FOOD in O Los B-LOC Angeles E-LOC
如果是,那么我可以在Python中使用哪些工具和库?
先谢谢您。
我正在将NLP用于自定义应用程序,我想在目前称为Stanza的StanfordNLP中训练自己的NER标记器模型。默认模型仅限于非常通用的标签,例如LOC,PER,...
您可以编写一段代码来实现此任务。