我试图从链接的 url here 中抓取一些基本产品信息,但 bs4
find_all
命令找不到任何给定与产品 div 关联的类名称的数据。具体来说,我正在尝试:
url = https://www.walmart.com/grocery/browse/Cereal-&-Breakfast-Food?aisle=1255027787111_1255027787501
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')
product_list = soup.find_all('div', class_='productListTile')
print(product_list)
但这会打印一个空列表
[]
。在检查了 Chrome 上的网页后,我知道“productListTile”是正确的类名。知道我做错了什么吗?
您很可能需要使用 Selenium。 Beautiful Soup 请求被重定向到“验证您的身份”页面。
这是一个与此非常相似的问题,其中包含 Selenium 和 Beautiful Soup 的代码,它们协同工作来刮取沃尔玛
提供任何 UserAgent,您将避免机器人身份验证。