Scrapy被禁止使用已更改的用户代理

问题描述 投票:-4回答:1

我正在尝试抓狂,由于某种原因,尽管使用了自定义用户代理,但我一直被禁止使用。

2020-06-07 15:36:43 [scrapy.crawler] INFO:覆盖的设置:{'BOT_NAME':'yelpscraper','DOWNLOAD_DELAY':3,'NEWSPIDER_MODULE':'yelpscraper.spiders','ROBOTSTXT_OBEY' :是,'SPIDER_MODULES':['yelpscraper.spiders'],'USER_AGENT':'Mozilla / 5.0(Windows NT 10.0; Win64; x64)AppleWebKit / 537.36(KHTML,like Gecko)Chrome / 83.0.4103.61 Safari / 537.36' }

如您所见,我已经覆盖了用户代理。但是,我收到此错误:

020-06-07 15:36:44 [scrapy.core.engine]调试:已抓取(200)https://www.yelp.com/robots.txt>(参考:无)2020-06-07 15:36:44 [scrapy.downloadermiddlewares.robotstxt]调试:robots.txt禁止:https://www.yelp.com/?find_desc = gyms&find_loc = new + york + city%2C + ny&ns = 1>

我已经通过yield语句更改了settings.py和def start_requests中的用户代理,但是没有运气。我很困惑,因为当我使用浏览器时,它运行良好。

python web-scraping scrapy web-crawler
1个回答
0
投票

[追求任何高价值目标时,首先要做的事情之一就是关闭ROBOTSTXT_OBEY,因为几乎可以肯定,他们会为您关心的任何事情都拥有[​​C0]

© www.soinside.com 2019 - 2024. All rights reserved.