我有时听到特别是在信息检索、搜索引擎、爬虫等方面,我们可以通过对页面内容进行哈希处理来检测重复页面。什么样的哈希函数能够对整个网页(至少有 2 个寻呼机)进行哈希处理,从而使 2 个副本具有相同的哈希输出值?典型的哈希输出值的大小是多少?
这样的哈希函数是否能够将2个类似但有轻微拼写错误等的网页放在同一个桶中?
谢谢,
任何哈希函数,给定两个输入 x 和 y s.t。 x = y,根据定义将为它们返回相同的值。但如果你想正确地进行这种重复检测,你将需要:
使用哪一种实际上取决于您的需求;加密哈希在近似重复检测中毫无用处,因为它们被设计为将近似重复映射到非常不同的值。
我认为您正在寻找模糊哈希,其中仅对文档的部分内容进行哈希处理,而不是立即对整个文档进行哈希处理。