将类似的新闻内容分组在一起,就像在GOOGLE NEWS中一样

问题描述 投票:18回答:6

由于各种新闻站点上发布的大量新故事/类似新闻内容,我无法轻松管理RSS feed。对于诸如世界新闻和商业新闻之类的话题,许多故事都是多余的,这给读者增加了整理他们已经阅读过哪些故事的负担。为了解决洪水和冗余这两个双重问题,我需要开发一种代码,以减少要读取的项目数量,并使用重叠的信息来确定有趣的主题。

如果我能够像在GOOGLE NEWS / StackOverflow中一样将类似的新闻内容组合在一起并将其呈现给用户,会更容易。

由于各种新闻站点上发布的大量新故事/类似新闻内容,我无法轻松管理RSS feed。对于诸如世界新闻和商业新闻之类的主题,许多...

php rss cluster-analysis feed
6个回答
9
投票

这绝对是一个不太容易解决的问题,可以通过以下方式解决:

  • 智能文本解析功能

3
投票

我读过某个地方-但我没有参考-Google新闻使用MinHash的变体来检测几乎重复的新闻帖子。它们中的许多几乎是完全相同的,它们来自新闻社,只是报纸稍作改动。

http://en.wikipedia.org/wiki/MinHash


2
投票

我在这里没有看到任何问题,但是我将从开发某种指纹算法开始,其中包括文章中的单词,名称,标题,日期等。然后,我将检查指纹的相似性以找到相同的文章,也许可以通过某种MapReduce作业轻松地将工作分散到群集中的其他服务器。

[如果您想获得启发,请查看Google Living Stories的源代码:http://code.google.com/p/living-stories/


1
投票

我认为您应该尝试使用Jaccard系数或Jaccard相似度

Jaccard索引,也称为Jaccard相似系数(最初由Paul Jaccard创造的decommunauté系数),是一种用于比较样本集的相似性和多样性的统计量。雅卡德系数用于度量有限样本集之间的相似度,并定义为交集大小除以样本集并集大小。Jaccarrd Coefficient.


0
投票

通过将所有文章转储到Elsasticsearch并进行more_like_this查询,我成功地做到了这一点。这出奇地好。只需进行一些微调即可正确设置某些设置。您还可以在bonsai.io上使用免费的Elasticsearch托管实例。


-1
投票

您将需要进行某种形式的文档聚类。这涉及:

  • 将文章分解为“功能”(例如TF-IDF矢量的关键字)
© www.soinside.com 2019 - 2024. All rights reserved.