使用Spacy en_core_web_lg模型，POS标记不一致

问题描述投票：1回答：1

鉴于（形成不佳）句子：“CK7，CK-20，GATA 3，PSA，都是负面的。”

使用_lg模型时，“CK7”被标记为NOUN（NNS）。

使用_md模型时，“CK7”被标记为PROPN（NNP）。这是对的。

使用_lg模型时，在句子中替换“CK7”：

当使用_md模型，并如上所述替换“CK7”时，所有都被标记为PROPN，如预期的那样。

由于我将要分析的大多数句子形成不好，我认为_lg模型的“更深层”依赖性解析会更好，只能找到POS标记的上述问题。

请告知：

非常感谢你。

nlp

spacy

pos-tagger

dependency-parsing

1个回答

1
投票

所以这不是你问题的直接答案，但如果你正在使用生物医学数据，那么尝试这个包可能是有意义的：scispacy

它不会将CK-7标记为专有名词，但它可以将许多这类术语作为实体处理，请参阅支持不同标记集的各种其他NER模型。它仍处于开发阶段，您可能仍需要为数据添加特殊情况/例外，但我认为您会看到比标准spacy模型更好，更一致的结果。