Http-隧道连接失败:403 Web爬网禁止出现错误

问题描述 投票:0回答:1

我试图通过网页抓取http网站,并且在尝试阅读该网站时遇到错误。

HTTPSConnectionPool(host='proxyvipecc.nb.xxxx.com', port=83): Max retries exceeded with url: http://campanulaceae.myspecies.info/ (Caused by ProxyError('Cannot connect to proxy.', OSError('Tunnel connection failed: 403 Forbidden',)))

以下是我在类似网站上编写的代码。我尝试使用urllib和user-agent仍然是相同的问题。

url = "http://campanulaceae.myspecies.info/"

response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'})
soup = BeautifulSoup(response.text, 'html.parser')

谁能帮我解决这个问题。在此先感谢

python web-scraping http-error
1个回答
0
投票

您应在请求URL时尝试添加代理。

proxyDict = { 
          'http'  : "add http proxy", 
          'https' : "add https proxy"
        }

requests.get(url, proxies=proxyDict)

您可以找到更多信息here

© www.soinside.com 2019 - 2024. All rights reserved.