我是NLP的新手。使用Spacy和NLTK来计数JSON文件中的句子,但是两个答案都有很大的不同。我以为答案是一样的。有人可以告诉我吗?或任何可以帮助我解决此问题的网络链接。请在这里让我感到困惑
句子分段和标记化是NLP子任务,每个NLP库可能具有不同的实现,从而导致不同的错误配置文件。
即使在spaCy库中,也有不同的方法:使用依赖解析器可以获得最佳结果,但是也存在一个更简单的基于规则的sentencizer
组件,该组件速度更快,但通常会出错(文档here )。
由于没有一种实现是100%完美的,因此您会在不同的方法和不同的库之间出现差异。您可以做的是打印出不同方法的情况,手动检查这些方法,并了解哪种方法最适合您的特定领域和文本类型。