使用NLTK(5400)和Spacy(5300)的句子计数给出不同的答案。需要知道为什么吗?

问题描述 投票:0回答:1

我是NLP的新手。使用Spacy和NLTK来计数JSON文件中的句子,但是两个答案都有很大的不同。我以为答案是一样的。有人可以告诉我吗?或任何可以帮助我解决此问题的网络链接。请在这里让我感到困惑

python nlp nltk spacy sentence-similarity
1个回答
0
投票

句子分段和标记化是NLP子任务,每个NLP库可能具有不同的实现,从而导致不同的错误配置文件。

即使在spaCy库中,也有不同的方法:使用依赖解析器可以获得最佳结果,但是也存在一个更简单的基于规则的sentencizer组件,该组件速度更快,但通常会出错(文档here )。

由于没有一种实现是100%完美的,因此您会在不同的方法和不同的库之间出现差异。您可以做的是打印出不同方法的情况,手动检查这些方法,并了解哪种方法最适合您的特定领域和文本类型。

© www.soinside.com 2019 - 2024. All rights reserved.