所以我有大约300-500篇文章,我想比较它们的相似性和相似性/重复性,有些文章可能针对相同的主题,但不相同。因此,为了解决这个问题,我开始尝试使用spaCy和相似性功能..现在的问题是相似性一次只比较两个文档,我想我需要循环每个单独的文本并将其与另一个文本进行比较,这非常缓慢而消耗内存的过程是否可以解决?
全对搜索将返回两个文档及其相似性,因此,如果要查找相似文档的“族”,则还需要像DFS一样应用图遍历。 A stack overflow post元组上的python
使用邻接表,并提供O ^(n + m)时间复杂度。
Here's您可以使用全对算法尝试在reddit笑话subreddit中查找转发的示例。