如何在没有浏览器自动化框架的情况下浏览页面进行网页抓取

问题描述 投票:0回答:1

这是网站的网址 https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL

所以我想在没有浏览器自动化工具的情况下用Python抓取这个网站。

在该网站的第一页中,将有一个输入字段,应填写该输入字段才能移至下一页。 我想刮掉第二页。

如何做到这一点?

如何在没有任何自动化框架的情况下实现这一目标。

from bs4 import BeautifulSoup
import requests

url = "https://www.enterprise.com/en/car-rental.html?icid=header.reservations.car.rental-_-start.a.res-_-ENUS.NULL"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

page = requests.get(url, headers=headers)
soup = BeautifulSoup(page.text, 'html.parser')  # Changed 'html' to 'html.parser'

我该怎么办? 或者我们可以转移到没有自动化框架的其他页面吗?

python web-scraping beautifulsoup
1个回答
0
投票
  1. 您需要获取第一个
  2. 然后发出另一个包含表单详细信息的请求,您需要查看该表单的数据是如何提交的并以相同的方式发送
  3. 使用响应中的第二个页面 URL(如果存在) (4.如果步骤 2 的响应中不存在 url,则查看他们如何获取 url)
最新问题
© www.soinside.com 2019 - 2024. All rights reserved.