我正在抓取一个网站。但是,当前代码重定向我,不会从我想要的URL爬网。
URL:http://www.example.com/book/diff/其中diff可以是除/之外的任何内容。要添加,我只想抓取与网址匹配的网址。
这是我目前的代码:
name = "testing"
allowed_domains = ['example.com']
start_urls = [
'http://www.example.com/book/',
]
rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/[^/]*/$')),
callback='parse_page',follow=True),)
rules = (Rule(LinkExtractor(allow=(r'^http://www.example.com/book/')), callback='parse_page',follow=True),)
这应该足够了。