我正在构建搜索引擎。如何从搜索结果中删除重复项？

问题描述投票：0回答：3

[搜索内容时，我得到的内容具有相同的文本和标题。当然，总会有一个原件（其他人从中复制/窃取）

如果您在搜索和抓取方面具有专业知识...您如何建议我删除这些重复项？（非常可行且有效的方式）

3个回答

1
投票

听起来像是我的编程问题。

如果您对这些页面的被盗和原始组件有一个清晰的认识，并且这些区别足够普遍，您可以编写一个过滤器以将它们分开，然后执行此操作，对“被盗”的内容进行哈希处理，然后您应该能够比较散列以确定两个页面是否相同。

[我想网页窃贼可能会进行进一步的代码混淆，使您陷入混乱，包括更改空白，因此您可能希望在散列之前对html进行规范化，例如删除任何多余的空白，使所有属性都使用"引号等

0
投票

0
投票

您是否尝试过查看网站的起源日期？比较一个字串的值以验证重复之后，将较早的一个列入白名单。