比较使用python的多个文本的相似度

问题描述投票：0回答：1

所以我有大约300-500篇文章，我想比较它们的相似性和相似性/重复性，有些文章可能针对相同的主题，但不相同。因此，为了解决这个问题，我开始尝试使用spaCy和相似性功能..现在的问题是相似性一次只比较两个文档，我想我需要循环每个单独的文本并将其与另一个文本进行比较，这非常缓慢而消耗内存的过程是否可以解决？

python

text

nlp

analysis

1个回答

0
投票

然后，您可以使用this paper中提出的具有实现here的全对相似性搜索。该算法非常快，特别是对于这么小的数据量。

全对搜索将返回两个文档及其相似性，因此，如果要查找相似文档的“族”，则还需要像DFS一样应用图遍历。 A stack overflow post元组上的python使用邻接表，并提供O ^（n + m）时间复杂度。

Here's您可以使用全对算法尝试在reddit笑话subreddit中查找转发的示例。

比较使用python的多个文本的相似度

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1