鉴于(形成不佳)句子:“CK7,CK-20,GATA 3,PSA,都是负面的。”
使用_lg模型时,“CK7”被标记为NOUN(NNS)。
使用_md模型时,“CK7”被标记为PROPN(NNP)。这是对的。
使用_lg模型时,在句子中替换“CK7”:
当使用_md模型,并如上所述替换“CK7”时,所有都被标记为PROPN,如预期的那样。
由于我将要分析的大多数句子形成不好,我认为_lg模型的“更深层”依赖性解析会更好,只能找到POS标记的上述问题。
请告知:
非常感谢你。
所以这不是你问题的直接答案,但如果你正在使用生物医学数据,那么尝试这个包可能是有意义的:scispacy
它不会将CK-7标记为专有名词,但它可以将许多这类术语作为实体处理,请参阅支持不同标记集的各种其他NER模型。它仍处于开发阶段,您可能仍需要为数据添加特殊情况/例外,但我认为您会看到比标准spacy模型更好,更一致的结果。