Python3 - 从需要登录的网站上抓取数据 - 可以使用当前登录的浏览器的用户代理吗?[重复]

问题描述 投票:0回答:2

我上网查了我的用户代理,并把那段代码放到我的程序中,但没有任何收获。

import requests
from bs4 import BeautifulSoup
URL = 'Servicenow blah blah'
headers = {
"User-Agent": Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:68.0) Gecko/20100101 Firefox/68.0'
}

page = requests.get(URL, headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')
print(soup.prettify())

到目前为止,非常简单的代码。

最终,我试图登录到这个网站(甚至通过使用一个已经登录的用户代理来规避,如果这是有可能的话 (这是我的主要问题)),然后对某一元素的html进行解析,监测其变化。

或者如果有更好的,更简单的工具,我很想知道。

我在打印的html中看到 "你的会话已经过期等等等等"。

python selenium beautifulsoup element monitor
2个回答
1
投票

首先 - 一个 用户代理 通常不是跟踪会话数据的方式,而是让网站了解您使用的浏览器版本的详细信息。通常情况下,这些信息会保存在您的cookie中。

对于登录问题,听起来你只需要执行登录请求,并跟踪所提供的Cookie等所需信息。然而,正如你所说的 "监控变化",我怀疑可能有一些Javascript的机会下线;) 我建议你看看 浏览器驱动程序。它是一个浏览器驱动程序,这意味着它只是与正常的浏览器交互,并将照顾所有的Javascript执行和cookie跟踪为你!它是一个浏览器驱动程序,这意味着它只是与正常的浏览器交互,并将照顾所有的Javascript执行和cookie跟踪为你!它是一个浏览器驱动程序,这意味着它只是与正常的浏览器交互,并将照顾所有的Javascript执行和cookie跟踪为你!它是一个浏览器驱动程序,这意味着它只是与正常的浏览器交互,并将照顾所有的Javascript执行和cookie跟踪为你!它是一个浏览器驱动程序,这意味着它只是与正常的浏览器交互,并将照顾所有的Javascript执行和cookie跟踪为你!它是一个浏览器驱动程序,这意味着它只是与正常的浏览器交互,并将照顾所有的Javascript执行和cookie跟踪为你!它是一个浏览器驱动程序,这意味着它只是与正常的浏览器交互,并将照顾所有的Javascript执行和cookie跟踪为你

© www.soinside.com 2019 - 2024. All rights reserved.