我正在使用urlopen()打开一个网站并从中提取(财务)数据。这是我的路线:
sourceCode = urlopen('xxxxxxxx').read()
在此之后,我然后拉出我需要的数据。我遍历同一域上的不同页面来提取数据(股票信息)。我结束了循环的主体:
time.sleep(1)
正如我所说,这让网站阻止了我。我的程序将运行几分钟,但在某些时候,它会停止并退出数据。我可以重新运行它,它将运行另一个任意的时间然后停止。
我能做些什么来阻止这种情况吗?
这适用于我(对于大多数网站):
如果您正在使用urllib.request库,则可以创建请求并欺骗用户代理。这可能意味着他们会阻止你。
from urllib.request import Request, urlopen
req = Request(path, headers={'User-Agent': 'Mozilla/5.0})
data = urlopen(req).read()
希望这可以帮助