如何仅遍历网站的某些区域？基本上留在某些页面内？

问题描述投票：0回答：1

我正在使用scrapy / spyder来构建我的爬虫，同时使用BeautifulSoup ..我一直在研究一个爬虫，并且相信我们正在按照我们已经刮掉的几个单独页面的预期工作，所以我的下一个挑战是刮同一个网站，但只有特定于高级别类别的网页。

我尝试过的唯一的事情就是使用allowed_domain和start_urls，但是当我这样做时，它确实击中了它找到的每个页面，我们想要控制我们抓取的页面，所以我们有一个干净的信息列表。

据我所知，在每个页面上都有链接将您带到您所在的页面之外，并且最终会在网站的其他位置结束..但我想要做的只是关注每个类别中的几个页面

#    allowed_domain = ['dickssportinggoods.com']
#    start_urls = ['https://www.dickssportinggoods.com/c/mens-top-trends-gear']

python beautifulsoup scrapy

1个回答

1
投票

您可以将您的蜘蛛基于Spider类并自行编码导航，或者将其基于CrawlSpider类并使用规则来控制访问哪些页面。根据您提供的信息，后面的方法似乎更适合您的要求。查看example以了解规则的工作原理。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.