StormCrawler的default-regex-filters.txt

Question

我现在已经搞乱了一段时间，并且无法理清StormCrawler的default-regex-filters.txt文件是如何工作的。

在一个示例中，我需要将爬虫限制为仅在https://www.example.com/dev下抓取项目，并且不在该站点上抓取任何其他目录。我把规则

+.*\/dev\/.*

进入default-regex-filters.txt的最后一行，但它似乎不起作用。我认为标准正则表达式规则适用，但似乎并非如此。上面的一个例子有/没有\之前它有效吗？我对此感到困惑，并想知道该文件中是否有正则表达式的备忘单，因此我可以更轻松地构建这些。

作为后续，文件中只有一个+过滤器也是如此吗？我依旧记得读过这篇文章，但我想确定一下。

Answer 1

您可以根据需要在文件中包含尽可能多的+过滤器。

过滤的逻辑很简单

 public String filter(URL pageUrl, Metadata sourceMetadata, String url) {
    for (RegexRule rule : rules) {
        if (rule.match(url)) {
            return rule.accept() ? url : null;
        }
    }
    return null;
}

其中accept表示模式具有+。如果没有匹配，则过滤URL。

可能是你离开了

# accept anything else
+.

在你添加的表达式之上？

你可能想看看FastURLFilter，它可能更直观。

StormCrawler的default-regex-filters.txt

问题描述投票：0回答：1

1个回答

最新问题

StormCrawler的default-regex-filters.txt

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1