如何在没有浏览器自动化框架的情况下浏览页面进行网页抓取

Question

这是网站的网址 https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL

所以我想在没有浏览器自动化工具的情况下用Python抓取这个网站。

在该网站的第一页中，将有一个输入字段，应填写该输入字段才能移至下一页。我想刮掉第二页。

如何做到这一点？

如何在没有任何自动化框架的情况下实现这一目标。

from bs4 import BeautifulSoup
import requests

url = "https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

page = requests.get(url, headers=headers)
soup = BeautifulSoup(page.text, 'html.parser')  # Changed 'html' to 'html.parser'

我该怎么办？或者我们可以转移到没有自动化框架的其他页面吗？

Answer 1

您需要获取第一个
然后发出另一个包含表单详细信息的请求，您需要查看该表单的数据是如何提交的并以相同的方式发送
使用响应中的第二个页面 URL（如果存在）（4.如果步骤 2 的响应中不存在 url，则查看他们如何获取 url）

如何在没有浏览器自动化框架的情况下浏览页面进行网页抓取

问题描述投票：0回答：1

1个回答

最新问题

如何在没有浏览器自动化框架的情况下浏览页面进行网页抓取

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1