如何在StormCrawler中使用快速URL过滤器?

问题描述 投票:0回答:1

我遇到了快速网址过滤器。它提供了几个选项,例如将过滤器应用于特定域。有人可以查询有关其使用情况的更多详细信息以及如何在url filters.json中配置它?

web-crawler apache-storm stormcrawler
1个回答
1
投票

可以像urlfilters.json一样配置过滤器,就像任何其他过滤器一样

 {
  "class": "com.digitalpebble.stormcrawler.filtering.regex.FastURLFilter",
  "name": "FastURLFilter",
  "params": {
    "file": "fast.urlfilter.json"
  }
}

file参数是可选的,默认采用上面给出的值。

有关详细信息,请参阅JAVADOCBLOGWIKI

© www.soinside.com 2019 - 2024. All rights reserved.