Python & BeautifulSoup:尝试获取没有识别信息的子标签

问题描述 投票:0回答:1

我正在尝试获取一个链接列表,这些链接在具有类的 div 标签内没有识别信息。

soup = BeautifulSoup(pageToScrape.text, "html.parser")
items = soup.findAll('div', attrs = {'class':'object'})

我遇到的问题是,在获得项目列表后,我没有找到一种方法(检查 BeautifulSoup 文档)来获取子标签。我尝试了几种不同的“解决方案”,例如

items = items.findAll('a')
items = items.select('.objects + div > a')
items = [tag['a'] for tag in soup.iselect(".objects")]

我感觉很困难。

python beautifulsoup
1个回答
0
投票

你必须迭代你的结果集:

[obj.a for obj in items]

或直接获取列表:

soup.select('.objects + div > a')

在较新的代码中,请避免使用旧语法

findAll()
而是使用
find_all()
select()
css selectors
- 有关更多信息,请花一分钟时间检查文档

© www.soinside.com 2019 - 2024. All rights reserved.