基于此问题,我需要以XMI格式导出并使用DKPro Core转换为Brat格式:
https://github.com/webanno/webanno/issues/328
我试过这段代码,但没有成功
public void convert() throws Exception {
SimplePipeline.runPipeline(CollectionReaderFactory
.createReaderDescription(XmiReader.class, XmiReader.PARAM_SOURCE_LOCATION, "/tmp", XmiReader.PARAM_PATTERNS,
XmiReader.INCLUDE_PREFIX + "*.xmi"), AnalysisEngineFactory
.createEngineDescription(BratWriter.class, BratWriter.PARAM_TARGET_LOCATION, "/tmp"));
}
brat格式的方言可能在DKPro Core BratWriter产生的内容与OpenNLP所期望的内容之间有所不同 - brat文件格式非常灵活。
如果您在WebAnno中使用内置的命名实体层,那么我会提出一个替代路线:
OpenNlpNamedEntityRecognizerTrainer
组件这应该避免需要额外的转换步骤。
披露:我是WebAnno和DKPro Core开发人员。
建议不起作用:
CoNLL 2002
Conll02NameSampleStream
仅支持某些语言和命名实体类型......叹息