有什么方法可以重新训练现有的 OpenNLP 模型吗?即从 OpenNLP 向现有模型添加新项目?
假设我想向现有的 en-ner-date.bin 添加一些新条目,因为某些单词没有被检测为日期。
注意:我不想制作新模型。我只是想修改现有的...
我见过类似模型构建器添加的东西,但没有关于如何使用它的具体示例。
任何帮助将不胜感激。
您可以不简单地操作现有的二进制 OpenNLP 模型文件。您必须使用特定功能来训练您自己的模型,即检测(您的)训练中文本样本中看到的命名实体。请参阅OpenNLP模型下载页面上的提示:
这些模型可用于测试或入门。请针对所有其他用例训练您自己的模型。
此外,引用Apache OpenNLP开发者手册:
预训练的模型可能不适用于所需的语言,无法检测重要实体,或者在新闻领域之外的性能不够好。这些是在新语料库或通过从应分析的数据中获取的私人训练数据扩展的语料库上对名称查找器进行自定义训练的典型原因。
更多详细信息请参阅姓名查找器培训部分。