spaCy Pipeline 的哪些组件可以禁用，以便句子标记化仍然可以工作并且管道更快？

Question

我只想使用 spaCy 管道进行句子标记化，因为它最适合我的语言，但我希望它尽可能少。

到目前为止，我认为我可以摆脱标记器和 ner 组件：

nlp = spacy.load("pl_core_news_sm", disable=['tagger', 'ner'])

我注意到没有

tok2vec

它就不起作用（这看起来很奇怪）。我不想尝试所有组合，因为我肯定会错过一些东西。

那么有谁知道可以禁用哪些组件，以便标记化仍然可以工作并且管道更快？

Answer 1

对于与

pl_core_news_sm

完全相同且组件最少的句子切分，仅启用

tok2vec

+

parser

。

为了更快地进行句子分段，请禁用默认启用的所有功能，然后启用

senter

。对于带有句末标点符号的句子，性能可能与解析器类似。如果您没有句子结尾的标点符号，那么解析器可能会执行得更好，但请根据您的任务对其进行评估。