如何将带有http请求的网页废掉,修改和恢复后无法使用?

问题描述 投票:0回答:1

https:/psycnet.apa.orgrecord2010-22619-002。

上面的页面是很难搜刮的。如果我使用chrome devtools找出原始的HTTP请求,我可以使用curl(使用类似下面的一些命令)来下载。但是一旦我开始修改curl comamnd,它就停止工作了。即使我把命令改回原来的命令,它也不会工作。这使得我很难弄清楚命令中哪些是必要的。还有为什么curl不能持续工作?

有人知道是怎么回事吗?还有这种情况下如何刮取网页?谢谢。

curl 'https://psycnet.apa.org/record/2010-22619-002' \
-XGET \
-H 'Cookie: PN_ACCESSTIME=1590443949351; D_HID=B2D7CBC8-9F78-3FF8-AF85-DBCA2549B75C; D_IID=6B45E04A-C23B-396B-BDA5-2278E4DC69CF; D_UID=2C3DC3A0-B486-3D0E-82B0-EFD89851CC75; D_ZID=B3CD9409-DCFA-39F9-8652-3F5AA1F661D8; D_ZUID=B2082E64-CC85-303A-98CA-CDB24B2136AC; ERIGHTS=9A7oTmdcDdNOOLQMkNE8KlCjLviB8Xi3-18x2dZGD2l5wwGgbsoix2BefrHXeAx3Dx3Dbxxx2FXl26couzYEndq9u24Mgx3Dx3D-MBjPj5HMO68xxf2gzQu6x2BXAx3Dx3D-jtx2Bu62wmWz8dEf2Tx2F743Xwx3Dx3D; currency=USD; defaultLocale=en-US; REFRESH_SESSION=false; PN_HOST=https%3A%2F%2Fpsycnet.apa.org; PN_MY=https%3A%2F%2Fmy.apa.org; PN_RC=false; connect.sid=s%3AIQ8oE9IASAXKwd6fs8kA9fX5R1ZT23ha.kGTspyZebDpWFIJWOunkfoKjp%2BmZlbi9QLoUwsPhlpM; D_SID=128.194.2.118:ECe+lQDTjpdBqy5goEKecyo/42Mjgbyb/Kki+4UTgVc; _ga=GA1.2.1866629999.1579333247' \
-H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' \
-H 'Accept-Encoding: br, gzip, deflate' \
-H 'Host: psycnet.apa.org' \
-H 'User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.1 Safari/605.1.15' \
-H 'Accept-Language: en-us' \
-H 'Referer: https://psycnet.apa.org/record/2010-22619-002' \
-H 'Connection: keep-alive'
curl web-scraping httprequest
1个回答
0
投票

在响应头中,你会看到这个。

X-Distil-CS: MISS

Distil Networks 现在的Imperva)是一个机器人管理解决方案。你成功搜刮这个网站的几率是相当小的。

© www.soinside.com 2019 - 2024. All rights reserved.