为什么我不能使用标准代码从网页中提取链接?

问题描述 投票:0回答:1

我正在研究一个项目,目前需要从拍卖行网页中提取所有链接。但是,下面提供的标准代码仅适用于其中之一(https://www.phillips.com/auctions/past)。对于苏富比来说,代码什么都不返回(https://www.sothebys.com/en/results),对于克里斯蒂而言,它返回的是您无法使用的怪异链接,因为它们会导致错误(https://www.christies.com/Results/)。

from bs4 import BeautifulSoup, SoupStrainer
import requests

url = "https://www.sothebys.com/en/results"

page = requests.get(url)    
data = page.text
soup = BeautifulSoup(data)

for link in soup.find_all('a'):
    print(link.get('href'))

这些网站可能有什么问题,或者我可以使用哪些替代方法?

python html parsing web-scraping beautifulsoup
1个回答
0
投票

有时您必须在请求中添加标头,以便网站可以返回某些内容。 Check this response。希望能对您有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.