使用NLTK（5400）和Spacy（5300）的句子计数给出不同的答案。需要知道为什么吗？

问题描述投票：0回答：1

我是NLP的新手。使用Spacy和NLTK来计数JSON文件中的句子，但是两个答案都有很大的不同。我以为答案是一样的。有人可以告诉我吗？或任何可以帮助我解决此问题的网络链接。请在这里让我感到困惑

python

nlp

nltk

spacy

sentence-similarity

1个回答

0
投票

句子分段和标记化是NLP子任务，每个NLP库可能具有不同的实现，从而导致不同的错误配置文件。

即使在spaCy库中，也有不同的方法：使用依赖解析器可以获得最佳结果，但是也存在一个更简单的基于规则的sentencizer组件，该组件速度更快，但通常会出错（文档here ）。

由于没有一种实现是100％完美的，因此您会在不同的方法和不同的库之间出现差异。您可以做的是打印出不同方法的情况，手动检查这些方法，并了解哪种方法最适合您的特定领域和文本类型。