网页整个内容的哈希是如何工作的?

问题描述 投票:0回答:2

我有时听到特别是在信息检索、搜索引擎、爬虫等方面,我们可以通过对页面内容进行哈希处理来检测重复页面。什么样的哈希函数能够对整个网页(至少有 2 个寻呼机)进行哈希处理,从而使 2 个副本具有相同的哈希输出值?典型的哈希输出值的大小是多少?

这样的哈希函数是否能够将2个类似但有轻微拼写错误等的网页放在同一个桶中?

谢谢,

algorithm data-structures hash indexing search-engine
2个回答
9
投票

任何哈希函数,给定两个输入 xy s.t。 x = y,根据定义将为它们返回相同的值。但如果你想正确地进行这种重复检测,你将需要:

  • 加密的强哈希函数,例如 MD5、SHA-1 或 SHA-512,它实际上永远不会将两个不同的页面映射到相同的值,因此您可以假设相等的哈希值意味着相等的输入,或者
  • a 局部敏感哈希函数如果您想检测接近重复项。

使用哪一种实际上取决于您的需求;加密哈希在近似重复检测中毫无用处,因为它们被设计为将近似重复映射到非常不同的值。


1
投票

我认为您正在寻找模糊哈希,其中仅对文档的部分内容进行哈希处理,而不是立即对整个文档进行哈希处理。

© www.soinside.com 2019 - 2024. All rights reserved.