我只想使用 spaCy 管道进行句子标记化,因为它最适合我的语言,但我希望它尽可能少。
到目前为止,我认为我可以摆脱标记器和 ner 组件:
nlp = spacy.load("pl_core_news_sm", disable=['tagger', 'ner'])
我注意到没有
tok2vec
它就不起作用(这看起来很奇怪)。
我不想尝试所有组合,因为我肯定会错过一些东西。
那么有谁知道可以禁用哪些组件,以便标记化仍然可以工作并且管道更快?
对于与
pl_core_news_sm
完全相同且组件最少的句子切分,仅启用 tok2vec
+parser
。
为了更快地进行句子分段,请禁用默认启用的所有功能,然后启用
senter
。对于带有句末标点符号的句子,性能可能与解析器类似。如果您没有句子结尾的标点符号,那么解析器可能会执行得更好,但请根据您的任务对其进行评估。