我正在构建搜索引擎。如何从搜索结果中删除重复项?

问题描述 投票:0回答:3

[搜索内容时,我得到的内容具有相同的文本和标题。当然,总会有一个原件(其他人从中复制/窃取)

如果您在搜索和抓取方面具有专业知识...您如何建议我删除这些重复项? (非常可行且有效的方式)

search
3个回答
1
投票

听起来像是我的编程问题。

如果您对这些页面的被盗和原始组件有一个清晰的认识,并且这些区别足够普遍,您可以编写一个过滤器以将它们分开,然后执行此操作,对“被盗”的内容进行哈希处理,然后您应该能够比较散列以确定两个页面是否相同。

[我想网页窃贼可能会进行进一步的代码混淆,使您陷入混乱,包括更改空白,因此您可能希望在散列之前对html进行规范化,例如删除任何多余的空白,使所有属性都使用"引号等



0
投票

您是否尝试过查看网站的起源日期?比较一个字串的值以验证重复之后,将较早的一个列入白名单。

© www.soinside.com 2019 - 2024. All rights reserved.