Stanford CoreNLP火车定制NER模型

问题描述 投票:0回答:1

我通过使用crf训练自定义模型进行一些测试,并且由于我没有适当的训练文件,因此我想自己列出5个标签和10个单词的清单,并且计划是将来继续使用更多传入数据来改进模型。但是我得到的结果是很多误报(它标记了许多单词,这些单词与训练文件中的原始单词无关),我想因为创建的模型是概率性的,并且考虑的不仅仅是单个单词

假设我想训练corenlp来检测少量单词而不关心上下文,是否有一些特殊设置?如果没有,是否有一种方法可以计算出获得准确模型所需的数据量?

nlp stanford-nlp crf
1个回答
0
投票

经过一些测试和研究后,发现RegexNER对于我的案例而言确实是一个不错的选择,它可以确定性地工作,也可以与NER结合使用。到目前为止,尝试使用较小的规则集,效果很好。下一步是确定在高流量压力情况下(我感兴趣的情况)的可伸缩性和可用性,并与基于python的其他解决方案进行比较

© www.soinside.com 2019 - 2024. All rights reserved.