spaCy Pipeline 的哪些组件可以禁用,以便句子标记化仍然可以工作并且管道更快?

问题描述 投票:0回答:1

我只想使用 spaCy 管道进行句子标记化,因为它最适合我的语言,但我希望它尽可能少。

到目前为止,我认为我可以摆脱标记器和 ner 组件:

nlp = spacy.load("pl_core_news_sm", disable=['tagger', 'ner'])

我注意到没有

tok2vec
它就不起作用(这看起来很奇怪)。 我不想尝试所有组合,因为我肯定会错过一些东西。

那么有谁知道可以禁用哪些组件,以便标记化仍然可以工作并且管道更快?

python nlp spacy
1个回答
0
投票

对于与

pl_core_news_sm
完全相同且组件最少的句子切分,仅启用
tok2vec
+
parser

为了更快地进行句子分段,请禁用默认启用的所有功能,然后启用

senter
。对于带有句末标点符号的句子,性能可能与解析器类似。如果您没有句子结尾的标点符号,那么解析器可能会执行得更好,但请根据您的任务对其进行评估。

参见:https://spacy.io/models/#design-modify

© www.soinside.com 2019 - 2024. All rights reserved.