Stormcrawler的ContentParseFilter

问题描述 投票:0回答:1

如果我将StormCrawler的ContentParseFilter设置为

"pattern": "//DIV[@id=\"site-body\"]",

这是否意味着在处理每个网址时,它是唯一可以查找其他网页链接的地方?我想知道我是否设置它,如果它将开始忽略菜单中的所有网址等。

谢谢!吉姆

web-crawler stormcrawler
1个回答
0
投票

WIKI page for ParseFilters

ContentFilter允许将文档的文本限制为Xpath表达式所涵盖的文本

它根本不影响链接的提取,但旨在改进索引的文本。

© www.soinside.com 2019 - 2024. All rights reserved.