如果我将StormCrawler的ContentParseFilter设置为
"pattern": "//DIV[@id=\"site-body\"]",
这是否意味着在处理每个网址时,它是唯一可以查找其他网页链接的地方?我想知道我是否设置它,如果它将开始忽略菜单中的所有网址等。
谢谢!吉姆
见WIKI page for ParseFilters
ContentFilter允许将文档的文本限制为Xpath表达式所涵盖的文本
它根本不影响链接的提取,但旨在改进索引的文本。