我正在研究一个项目,目前需要从拍卖行网页中提取所有链接。但是,下面提供的标准代码仅适用于其中之一(https://www.phillips.com/auctions/past)。对于苏富比来说,代码什么都不返回(https://www.sothebys.com/en/results),对于克里斯蒂而言,它返回的是您无法使用的怪异链接,因为它们会导致错误(https://www.christies.com/Results/)。
from bs4 import BeautifulSoup, SoupStrainer
import requests
url = "https://www.sothebys.com/en/results"
page = requests.get(url)
data = page.text
soup = BeautifulSoup(data)
for link in soup.find_all('a'):
print(link.get('href'))
这些网站可能有什么问题,或者我可以使用哪些替代方法?
有时您必须在请求中添加标头,以便网站可以返回某些内容。 Check this response。希望能对您有所帮助。