Scrapy被禁止使用已更改的用户代理

Question

我正在尝试抓狂，由于某种原因，尽管使用了自定义用户代理，但我一直被禁止使用。

2020-06-07 15:36:43 [scrapy.crawler] INFO：覆盖的设置：{'BOT_NAME'：'yelpscraper'，'DOWNLOAD_DELAY'：3，'NEWSPIDER_MODULE'：'yelpscraper.spiders'，'ROBOTSTXT_OBEY' ：是，'SPIDER_MODULES'：['yelpscraper.spiders']，'USER_AGENT'：'Mozilla / 5.0（Windows NT 10.0; Win64; x64）AppleWebKit / 537.36（KHTML，like Gecko）Chrome / 83.0.4103.61 Safari / 537.36' }

如您所见，我已经覆盖了用户代理。但是，我收到此错误：

020-06-07 15:36:44 [scrapy.core.engine]调试：已抓取（200）https://www.yelp.com/robots.txt>（参考：无）2020-06-07 15:36:44 [scrapy.downloadermiddlewares.robotstxt]调试：robots.txt禁止：https：//www.yelp.com/？find_desc = gyms＆find_loc = new + york + city％2C + ny＆ns = 1>

我已经通过yield语句更改了settings.py和def start_requests中的用户代理，但是没有运气。我很困惑，因为当我使用浏览器时，它运行良好。

Answer 1

[追求任何高价值目标时，首先要做的事情之一就是关闭ROBOTSTXT_OBEY，因为几乎可以肯定，他们会为您关心的任何事情都拥有[C0]

Scrapy被禁止使用已更改的用户代理

问题描述投票：-4回答：1

1个回答

最新问题

Scrapy被禁止使用已更改的用户代理

问题描述 投票：-4回答：1

1个回答

最新问题

问题描述投票：-4回答：1