在Python中使用请求不使用Java进行Web抓取

问题描述 投票:0回答:1

因此,我正在制作一个Python脚本,该脚本获取网页的内容并将其与以前保存的版本进行比较,以查看网页是否已更改。我正在使用这种方法获取原始内容:

def getcontent(url):
    str = requests.get(url)
    str = str.text
    return(str)

之后,我将对内容进行清理并引用转义,等等,但这无关紧要。我一直遇到的问题是该网页上有一些JavaScript代码,该代码生成了一个唯一的密钥,我的方法可以下载该密钥。每次您获取网页内容时,密钥都是不同的。我不知道那个钥匙是做什么用的。问题是,如果密钥不同,则新内容和保存的内容将不相同。

当我请求网页时如何禁用JavaScript?

python html web web-scraping python-requests
1个回答
0
投票

令牌是在服务器端生成的,可以出于各种原因使用(例如CSRF令牌)

令牌将始终位于响应的内容中,因此不需要JavaScript。

您应该找到一种忽略/删除令牌的方法。

© www.soinside.com 2019 - 2024. All rights reserved.