[搜索内容时,我得到的内容具有相同的文本和标题。当然,总会有一个原件(其他人从中复制/窃取)
如果您在搜索和抓取方面具有专业知识...您如何建议我删除这些重复项? (非常可行且有效的方式)
听起来像是我的编程问题。
如果您对这些页面的被盗和原始组件有一个清晰的认识,并且这些区别足够普遍,您可以编写一个过滤器以将它们分开,然后执行此操作,对“被盗”的内容进行哈希处理,然后您应该能够比较散列以确定两个页面是否相同。
[我想网页窃贼可能会进行进一步的代码混淆,使您陷入混乱,包括更改空白,因此您可能希望在散列之前对html进行规范化,例如删除任何多余的空白,使所有属性都使用"
引号等
您是否尝试过查看网站的起源日期?比较一个字串的值以验证重复之后,将较早的一个列入白名单。