为像样的搜索引擎提供支持的常见爬行要求

Question

Common Crawl 每月释放大量数据负载，大小近数百 TB。这种情况已经持续了 8-9 年了。

这些快照是独立的（可能不是）？或者我们是否必须将所有这些结合起来才能为一个像样的搜索引擎提供支持，其中显示来自各种网页的结果？ Common Crawl 存储库历史记录中所有有效负载的大小（他们没有指定 2016 年大部分有效负载的大小）约为 20 PB，加上 2016 年的近似值，则变为 22 PB 左右。其中有多少可能是重复数据？如果我们从 HTML 页面中剥离所有 HTML 标签和其他无意义数据，新数据（仅原始文本内容）的大小会是多少？

如果 2015 年 3 月的有效负载中存在《纽约时报》的网页，那么此后它们出现在多个有效负载中的可能性有多大（我已阅读 Jacard 数字报告，但他们没有描绘出非常清晰的图片））并且大量此类页面将在所有有效负载中重复，需要大量修剪？

Answer 1

来自 https://news.ycombinator.com/item?id=26598044 :

据我所知，抓取是一个持续的过程，而不是一系列的独立的“快照”。之间的 URL 几乎没有重叠每个抓取存档，虽然看起来好像有一些更大规模的重复。

您可以在此页面上了解有关抓取之间重叠的更多信息，该页面还显示快照之间抓取的数据发生了多少变化：https://commoncrawl.github.io/cc-crawl-statistics/plots/crawloverlap

还可以在此处查看每次抓取添加了多少个新网址： https://commoncrawl.github.io/cc-crawl-statistics/plots/crawlsize

您可以通过仅组合最后 N 次抓取来权衡空间与全面性：

为像样的搜索引擎提供支持的常见爬行要求

问题描述投票：0回答：1

1个回答

最新问题

为像样的搜索引擎提供支持的常见爬行要求

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1