BeautifulSoup类搜索,没有结果

问题描述 投票:0回答:1

我正在使用BeautifulSoup来解析this网站的代码并提取结果的URL。但是当使用find_all命令时,我得到一个空列表作为输出。我手动检查了从网站下载的HTML代码,它包含相应的类。如果有人能指出我犯错的地方或展示更好的解决方案,我将不胜感激!

from bs4 import BeautifulSoup
import requests


page = requests.get("https://www.awf.edu.pl/pracownik/wyszukiwarka-pracownikow?result_5251_result_page=3&queries_search_query=&category_kategorie=wydzia_wychowania_fizycznego&search_page_5251_submit_button=Szukaj&current_result_page=1&results_per_page=20&submitted_search_category=&mode=results")

soup = BeautifulSoup(page.content, 'html.parser')

results = soup.find_all('div', class_ = 'search-item photo')

`

我也尝试使用下面的代码来查找网站上的所有链接,然后将我需要的内容分开,但在这个例子中,我只得到父标记。如果在标签'a'中嵌套了另一个标签'a',则跳过它,从文档中,我认为它也将包含在输出中。

from bs4 import BeautifulSoup
import requests


page = requests.get("https://www.awf.edu.pl/pracownik/wyszukiwarka-pracownikow?result_5251_result_page=3&queries_search_query=&category_kategorie=wydzia_wychowania_fizycznego&search_page_5251_submit_button=Szukaj&current_result_page=1&results_per_page=20&submitted_search_category=&mode=results")

soup = BeautifulSoup(page.content, 'html.parser')

results = soup.find_all('a')

BeautifulSoup can't find class that exists on webpage?

我找到了类似问题的答案,但就我而言,当我使用print(soup.prettify())时,我可以看到我想在控制台中找到的HTML代码

python python-3.x beautifulsoup
1个回答
0
投票

您遇到的问题与解析page.content的方式有关。

更换:

soup = BeautifulSoup(page.content, 'html.parser')

有:

soup = BeautifulSoup(page.content, 'lxml')

希望这可以帮助。

© www.soinside.com 2019 - 2024. All rights reserved.