Scrapy LinkExtractor特定网址

问题描述投票：0回答：1

我正在抓取一个网站。但是，当前代码重定向我，不会从我想要的URL爬网。

URL：http://www.example.com/book/diff/其中diff可以是除/之外的任何内容。要添加，我只想抓取与网址匹配的网址。

这是我目前的代码：

 name = "testing"
allowed_domains = ['example.com']
start_urls = [
    'http://www.example.com/book/',
]

rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/[^/]*/$')),
 callback='parse_page',follow=True),)

scrapy

1个回答

0
投票

    rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/')), callback='parse_page',follow=True),)

这应该足够了。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.