比较使用python的多个文本的相似度

问题描述 投票:0回答:1

所以我有大约300-500篇文章,我想比较它们的相似性和相似性/重复性,有些文章可能针对相同的主题,但不相同。因此,为了解决这个问题,我开始尝试使用spaCy和相似性功能..现在的问题是相似性一次只比较两个文档,我想我需要循环每个单独的文本并将其与另一个文本进行比较,这非常缓慢而消耗内存的过程是否可以解决?

python text nlp analysis
1个回答
0
投票
然后,您可以使用this paper中提出的具有实现here的全对相似性搜索。该算法非常快,特别是对于这么小的数据量。

全对搜索将返回两个文档及其相似性,因此,如果要查找相似文档的“族”,则还需要像DFS一样应用图遍历。 A stack overflow post元组上的python使用邻接表,并提供O ^(n + m)时间复杂度。

Here's您可以使用全对算法尝试在reddit笑话subreddit中查找转发的示例。

© www.soinside.com 2019 - 2024. All rights reserved.