如何仅遍历网站的某些区域?基本上留在某些页面内?

问题描述 投票:0回答:1

我正在使用scrapy / spyder来构建我的爬虫,同时使用BeautifulSoup ..我一直在研究一个爬虫,并且相信我们正在按照我们已经刮掉的几个单独页面的预期工作,所以我的下一个挑战是刮同一个网站,但只有特定于高级别类别的网页。

我尝试过的唯一的事情就是使用allowed_domain和start_urls,但是当我这样做时,它确实击中了它找到的每个页面,我们想要控制我们抓取的页面,所以我们有一个干净的信息列表。

据我所知,在每个页面上都有链接将您带到您所在的页面之外,并且最终会在网站的其他位置结束..但我想要做的只是关注每个类别中的几个页面

#    allowed_domain = ['dickssportinggoods.com']
#    start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']
python beautifulsoup scrapy
1个回答
1
投票

您可以将您的蜘蛛基于Spider类并自行编码导航,或者将其基于CrawlSpider类并使用规则来控制访问哪些页面。根据您提供的信息,后面的方法似乎更适合您的要求。查看example以了解规则的工作原理。

© www.soinside.com 2019 - 2024. All rights reserved.