确保Nutch已抓取了特定域的所有页面

问题描述 投票:0回答:1

我正在使用Nutch从单个域收集所有数据。如何确保Nutch已抓取给定域下的每个页面?

nutch
1个回答
2
投票

这在技术上是不可能的。由于在同一域下可以有不同页面的数量没有限制。对于动态生成的网站尤其如此。您可以做的是查找sitemap.xml,并确保所有这些URL均由Nutch抓取/建立索引。由于站点地图是一个指示URL的站点,因此您可以将其用作需要抓取的内容的指南。

Nutch有一个站点地图处理器,它将所有来自站点地图的URL注入到当前的crawldb中(即它将“计划”要爬网的URL)。

作为提示,即使进行深度爬网,甚至Google也会强制从同一域建立索引的URL数量上限。这通常称为抓取预算。

© www.soinside.com 2019 - 2024. All rights reserved.