为什么我不能使用标准代码从网页中提取链接？

问题描述投票：0回答：1

我正在研究一个项目，目前需要从拍卖行网页中提取所有链接。但是，下面提供的标准代码仅适用于其中之一（https://www.phillips.com/auctions/past）。对于苏富比来说，代码什么都不返回（https://www.sothebys.com/en/results），对于克里斯蒂而言，它返回的是您无法使用的怪异链接，因为它们会导致错误（https://www.christies.com/Results/）。

from bs4 import BeautifulSoup, SoupStrainer
import requests

url = "https://www.sothebys.com/en/results"

page = requests.get(url)    
data = page.text
soup = BeautifulSoup(data)

for link in soup.find_all('a'):
    print(link.get('href'))

这些网站可能有什么问题，或者我可以使用哪些替代方法？

python html parsing web-scraping beautifulsoup

1个回答

0
投票

有时您必须在请求中添加标头，以便网站可以返回某些内容。 Check this response。希望能对您有所帮助。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.