使用Spacy en_core_web_lg模型,POS标记不一致

问题描述 投票:1回答:1
  • PROPN的POS标记使用en_core_web_lg模型无法以预期方式工作。
  • POS标记使用_md模型可以更加可预测地工作。

鉴于(形成不佳)句子:“CK7,CK-20,GATA 3,PSA,都是负面的。”

使用_lg模型时,“CK7”被标记为NOUN(NNS)。

使用_md模型时,“CK7”被标记为PROPN(NNP)。这是对的。

使用_lg模型时,在句子中替换“CK7”:

  • “CK1”标记为PROPN
  • “CK2”标记为PROPN
  • “CK3”,“CK4”标记为PROPN
  • “CK5”标记为ADJ
  • “CK6”标记为PROPN
  • “CK7”被标记为NOUN
  • “CK8”标记为PROPN
  • “CK9”标记为ADP
  • “CK22”,“CK222”,标记为PROPN

当使用_md模型,并如上所述替换“CK7”时,所有都被标记为PROPN,如预期的那样。

由于我将要分析的大多数句子形成不好,我认为_lg模型的“更深层”依赖性解析会更好,只能找到POS标记的上述问题。

请告知:

  1. 使用en_core_web_lg模型时如何处理反直观的POS标记?
  2. 哪种模型最适合依赖解析结构不良的句子?

非常感谢你。

nlp spacy pos-tagger dependency-parsing
1个回答
1
投票

所以这不是你问题的直接答案,但如果你正在使用生物医学数据,那么尝试这个包可能是有意义的:scispacy

它不会将CK-7标记为专有名词,但它可以将许多这类术语作为实体处理,请参阅支持不同标记集的各种其他NER模型。它仍处于开发阶段,您可能仍需要为数据添加特殊情况/例外,但我认为您会看到比标准spacy模型更好,更一致的结果。

© www.soinside.com 2019 - 2024. All rights reserved.