beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

BeautifulSoup4:如何查找所有具有远方后代且其中包含特定文本的表?

我正在尝试抓取一个网站的页面,该页面的信息用嵌套表组织在 中。特别是,我想要的特定表都有一个嵌套的 和 我正在尝试抓取一个网站的页面,该页面的信息用嵌套表格组织在<table>中。特别是,我想要的特定表格都有一个嵌套的 <table>,其中 <tr> 包含 <th>,其中 <span> 包含某些文本。 类似这样的: <table> <tbody> <tr> <td> <table> <tbody> ... <tr> <th> <span>Text that should be in each table i want to get</span> </th> ... 换句话说,我如何搜索包含特定文本的标签,但获得该标签的远祖?用例是我需要此处描述的最外层表中的大量数据,但是我可以搜索该父表的属性,因此我需要根据其后代进行搜索。 我尝试过只是搜索,但表格太多了,因为页面几乎完全是用它们组织的,所以很难挑选并准确找到我需要的内容。我希望找到一种方法来搜索后代满足条件的标签。如果我可以检查某个深度的后代(例如,如果我知道跨度位于表的该深度,我可以搜索它吗?),那就更好了,因为最外面的表将在其中包含所有这些表,因此也满足某些后代拥有所需文本的条件。 您可以使用 find_all() 在树中向下查找,查找包含该文本的后代标签。然后使用 find_parents() 回到树上,查看标签的父级。 以下是在页面上查找标题文本并查找其父表标签的代码概要。 from bs4 import BeautifulSoup from urllib2 import urlopen import re PAGE_URL = "https://..." FIXED_HEADING_PATTERN = "Fixed text" soup = BeautifulSoup(urlopen(PAGE_URL).read()) pattern = re.compile(FIXED_HEADING_PATTERN) headings = soup.findAll("span", text=pattern) # For each heading found create a list of it's parent tables for heading in headings: parent_tables = [t for t in heading.find_parents("table")] # Use parent_tables

回答 1 投票 0

如何从Wordle获取html

我尝试使用 Beautiful Soup 来抓取 Wordle,但它没有按预期工作(很可能是因为它是动态的 JavaScript)。我试着环顾四周,发现我必须使用 Seleniu...

回答 1 投票 0

尝试在selenium中获取xhr响应内容

我正在尝试使用 selenium 从 bitclout 中提取数据。我真正想要得到的是 xhr 选项卡中针对此 url (https://api.bitclout.com/api/v1/block) 加载的响应。你就会明白我的意思了

回答 1 投票 0

Python:使用 Selenium/BS4 抓取使用脚本填充的画布

我正在尝试为我的 Pyside6 应用程序实现一个价格跟踪页面,我想通过使用 Selenium 和 bs4 进行网页抓取来实现。 我的代码进入了一个名为 Cardmarket 的网站页面,现在我是

回答 1 投票 0

为什么来自 beautifulsoup4 的 get_text() 没有提取任何内容?

我试图从 HTML 文档中的一堆 p 标签中提取人类可读的文本,但 bs4 中的 get_text() 函数似乎根本没有提取任何内容。 这是一个示例输出...

回答 1 投票 0

如何从具有多个嵌入选项卡的网页中抓取 td 类元素

我在使用 python 网页抓取程序运行下面的代码时遇到了麻烦,它似乎从多个选项卡打印文本,而不仅仅是在...上找到的单个“增强形式”选项卡。

回答 1 投票 0

Selenium 应用程序无需无头模式即可运行;启用无头模式时中断

该应用程序是网络抓取。它最终将出现在实时网站上,因此无头模式至关重要。我正在关注一些指南和视频,例如:https://www.youtube.com/watch?v=ne3BH9-5H2o

回答 1 投票 0

使用美丽的汤用动态javascript抓取网站

我正在尝试 IBM 文档。以下是我正在查看的网址。我想知道如何以编程方式展开左侧窗格上的所有切换,以便我可以获得所有 URL 并获得...

回答 1 投票 0

如何用python获取隐藏div的动态html源代码? (Selenium + beautifulsoup问题)

我想使用selenium加载一个html页面。 这是我的Python代码: 驱动程序 = webdriver.Chrome() driver.maximize_window() 驱动程序.get(url) 汤 = BeautifulSoup(driver.page_source, 'html.

回答 1 投票 0

相同id的元素较多,如何抓取

我正在为一个大学项目做准备,我想从 IMbd 上抓取电视节目的类型。在图像中你可以找到 html。我使用了以下代码: url1 = 'https://m.imdb.com/title/tt0903747/?ref_=

回答 1 投票 0

分页网页抓取

我正在尝试从网站上抓取测试数据。我陷入了从所有页面提取数据的困境,我检查了源文件中的分页代码,但我的代码仍然只返回第一页数据。可以

回答 1 投票 0

如何在 BeautifulSoup 中链接 find() 方法并处理 None ?

我正在编写一些 HTML 处理并且喜欢 BS4。我确实发现它有点冗长,希望有一些更好的方法来处理这个问题。 我很想像这样将我的发现链接在一起: 汤....

回答 1 投票 0

如何使用Python抓取Google SERP

我正在尝试抓取一些谷歌搜索结果。我遵循了网上的几个教程,但是我遇到了问题,结果包含您首先需要接受的“cookie 框”...

回答 2 投票 0

Beautifulsoup 从输出中删除括号

我正在尝试从网页获取html: 尝试: 描述=hun.select('#description > div.tab-pane-body > div > div > div > table') 除了: 描述=无 结果 = {"

回答 2 投票 0

Python Beautiufulsoup 链接查找处理 none

我正在编写一些 HTML 处理并且喜欢 BS4。我确实发现它有点冗长,希望有一些更好的方法来处理这个问题。 我很想像这样将我的发现链接在一起: 汤....

回答 1 投票 0

无法使用 Beautiful Soup 来废弃“<div class="tdb-block-inner td-fix-index">”

我正在尝试使用 BeautiFul soup 废弃一个网站并获取下面的文本,但无法获取此标题下的内容 a = 'https://insights.blackcoffer.com/how-will-covid-19-affect-the-...

回答 1 投票 0

网络抓取行跨度大于 1 的表

我想从 https://en.wikipedia.org/wiki/List_of_Eurovision_Song_Contest_host_cities 抓取第一个维基百科表格。困难在于表格合并了单元格(一些......

回答 1 投票 0

如何附加到正文顶部而不是底部?

我想附加这个html: cover = soup.new_tag('div', id='cover', attrs={"style": '位置:固定;高度:100%;宽度:100%;顶部:0;左侧:0;背景:#fff z 索引:9999;'}) 对...

回答 2 投票 0

从网络抓取数据

目前我有一个从特定网站爬取数据的项目,如下所示,这是我自 2023 年以来用于爬取的代码,现在在 2024 年网站已更改,我不知道如何修复

回答 1 投票 0

如何使用Python从IMDb网站提取一些信息?

我试图为大学研究收集一些有关电视节目的信息。 我从 IMBd 中抓取了 https://www.imdb.com/chart/toptv/ 网站上所有排名前 250 的电视节目的 URL。我储存了

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.