使用动态登录参数和验证码从网站抓取数据

问题描述 投票:0回答:0

我正在尝试从需要通过登录页面进行身份验证的网站中抓取数据。登录页面受验证码保护,网站使用基于 JavaScript 的加密来生成动态登录参数,例如用户名和密码哈希值。

我尝试使用Python的请求库和会话来处理cookie,但我在绕过验证码和处理动态登录参数方面面临挑战。

我检查了登录页面源代码并注意到 JavaScript 加密,但我不确定如何以编程方式提取登录凭据。

有没有办法自动化验证码解决过程或提取必要的登录参数来绕过验证码并成功登录?登录后如何继续从网站抓取数据?

我将非常感谢任何可以帮助我解决这个问题并成功抓取我需要的数据的见解、代码示例或库。

提前谢谢您!

我尝试从需要通过登录页面进行身份验证的网站上抓取数据。登录页面受验证码保护,网站使用基于 JavaScript 的加密来生成动态登录参数,例如用户名和密码哈希值。

为了处理登录并维护跨请求的会话,我使用了 Python 的请求库以及会话对象。我尝试通过检查登录页面源代码来提取动态登录参数,但 JavaScript 加密使得很难以编程方式直接提取登录凭据。

接下来,我研究了使用外部服务自动化验证码解决过程,但我找不到适合此任务的可靠且经济高效的解决方案。

运行我的脚本时,我希望它能够通过绕过验证码并使用动态生成的登录参数来成功登录。我希望能够在成功登录后访问“https://example.com/data”上提供的数据。

但是,验证码挑战阻止我的脚本自动登录,并且我找不到以编程方式提取必要登录参数的方法。结果,我的抓取尝试失败了,我无法访问所需的数据。

我现在正在寻求指导、代码示例或库或工具的建议,以帮助我克服验证码和动态参数挑战,并成功从网站上抓取我需要的数据。

python web-scraping python-requests recaptcha
© www.soinside.com 2019 - 2024. All rights reserved.