beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

为什么BeautifulSoup无法从HTML中找到特定的表格元素?

我无法获取代码来查找比赛表格表中找到的文本(在下面的元素中突出显示)。实际获取该文本的适当元素是什么? 导入请求 从 BS4 导入

回答 1 投票 0

我在使用 BeautifulSoup 代码在网页中查找 td 类文本时遇到问题

我无法获取代码来查找比赛表格表中找到的文本(在下面的元素中突出显示)。实际获取该文本的适当元素是什么? 导入请求 从 BS4 导入

回答 1 投票 0

使用 Python BrickEconomy 网站进行数据抓取

我正在使用我编写的代码从网站“https://www.brickeconomy.com/sets/year/2024”抓取数据。我设法从表中提取乐高套装的名称,但我无法访问...

回答 1 投票 0

禁止beautifulsoup中的url警告

我正在使用 Beautiful Soup 4 来解析一些从互联网上抓取的 html 格式的文本。有时,该文本只是某些网站的链接。 BS4 非常生气的一个事实是: 用户警告:“...

回答 2 投票 0

使用Python(Selenium + BeautifulSoup)从交互式图表中提取数据

我需要从此链接中的资产演变图表中提取数据(示例):https://investidor10.com.br/carteira/572422/(附有图表图像)。我需要我存在的所有条形图的数据...

回答 1 投票 0

如何使用BeautifulSoup从HTML中抓取表格数据?

我一直在尝试从这个网站上抓取表格https://www.alphaquery.com/stock/aapl/earnings-history 但我无论如何也无法实现它。我什至找不到桌子。 导入请求 来自 BS4 我...

回答 1 投票 0

如何从 HTML 中抓取表格数据?

我一直在尝试从这个网站上抓取表格https://www.alphaquery.com/stock/aapl/earnings-history 但我无论如何也无法实现它。我什至找不到桌子。 导入请求 来自 BS4 我...

回答 1 投票 0

用硒刮痧/beautifulsoup

我一直在尝试从这个网站上抓取表格https://www.alphaquery.com/stock/aapl/earnings-history 但我无论如何也无法实现它。我什至找不到桌子。 导入请求 来自 BS4 我...

回答 1 投票 0

通过Python或其他更好的工具根据日期自动将每日更新的多个网页转换为单个pdf

我正在准备考试,这些网站会定期上传时事。 我不想每天重新打开这些多个网站,而是想通过下载来简化这个过程......

回答 1 投票 0

如何解析并提取包含::marker的标签?

所以我试图从网站上删除一些数据,并且我想提取中的文本 所以我试图从网站上删除一些数据,并且我想提取 中的文本 <ul> <li> ::marker (text) </li> <li> ::marker (text) </li> </ul> 这是我尝试过的,但没有返回其他 from bs4 import BeautifulSoup import requests url = *the link of the website page = requests.get(url) soup = BeautifulSoup(page.text, 'html.parser') reference = soup.find("li") print(reference.text) #output is None 由于有多个项目,因此可能需要使用 find_all,然后迭代这些条目,在每个项目上调用 get_text;像这样的东西: list_items = soup.find_all("li") for element in list_items: print(element.get_text()) 您可以添加一些额外的代码来检查 find_all 是否确实返回至少一个元素。

回答 1 投票 0

如何使用 bs4 从元素中提取文本

我正在抓取Airbnb(链接到下一页),我想要得到的东西之一是房东从什么时候开始托管,如下图所示(用红笔标记): 图像示例 代码...

回答 1 投票 0

通过Python获取HTML的Span类中的数据

我正在尝试从网站获取跨度类之一中的数据。目前,我捕获了数据的正确位置,但无法获取课堂文本。 我的代码: 导入请求 从 BS4 导入

回答 1 投票 0

使用 Beautiful Soup 获取第二个 srcset 属性

我正在尝试获取beautiful Soup中的第二个srcset属性,原始html如下: 我正在尝试获取beautiful Soup中的第二个srcset属性,原始html如下: <picture class="card-picture ratio ratio-4x3"> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&amp;rmode=pad&amp;width=640&amp;rmode=pad&amp;width=640&amp;format=webp" type="image/webp"/> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&amp;rmode=pad&amp;width=640&amp;rmode=pad&amp;width=640" type="image/jpeg"/> <img alt="" class="card-img object-fit-contain is-contain" loading="lazy" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7"> </img> </picture> 我的代码: for result in results: imgel = result.find("source", attrs = {'srcset' : True})['srcset'] 这将返回第一个 srcset 值 _ 我想获取第二个值 png URL 只需选择所有 <source> 标签并使用正常索引: from bs4 import BeautifulSoup html_source = """\ <picture class="card-picture ratio ratio-4x3"> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&amp;rmode=pad&amp;width=640&amp;rmode=pad&amp;width=640&amp;format=webp" type="image/webp"/> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&amp;rmode=pad&amp;width=640&amp;rmode=pad&amp;width=640" type="image/jpeg"/> <img alt="" class="card-img object-fit-contain is-contain" loading="lazy" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7"> </img> </picture>""" soup = BeautifulSoup(html_source, "html.parser") results = soup.select("picture") for result in results: second_img = result.select("source")[1] print(second_img) 打印: <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&amp;rmode=pad&amp;width=640&amp;rmode=pad&amp;width=640" type="image/jpeg"/>

回答 1 投票 0

如何抓取足球周结果

我想获得虚拟足球联赛的结果,并根据此 Excel 文件中所示的周进行排列,我正在尝试从该网站 https://odibets.com/league...

回答 2 投票 0

如何使用 selenium / requests / beautifulsoup 将表抓取到数据框中?

我的目标是对于网站https://data.eastmoney.com/executive/000001.html,当你向下滚动时,你会发现一个大桌子 我想把它变成Python中的DataFrame。汤很美

回答 2 投票 0

如何从网络上爬取此类数据并在Python中将其转换为DataFrame?我必须使用 Selenium 才能做到这一点吗?或者BeautifulSoup足以抓取它吗?

我的目标是对于网站https://data.eastmoney.com/executive/000001.html,当你向下滚动时,你会发现一个大桌子 我想把它变成Python中的DataFrame。汤很美

回答 1 投票 0

根据网站内的JS函数将日期转换为时间戳

我正在尝试抓取以下网站,我需要在其中选择开始和结束日期。 在这里,我注意到对该端点的 API 调用包含如下 JSON 数据。 1712089716000 等于 04/03/2...

回答 1 投票 0

如何在不使用 Selenium 的情况下使用 Python 处理百思买登陆页面上的国家/地区选择?

我正在尝试使用 Python 从百思买网站获取内容,但我在国家/地区选择页面上遇到了初始障碍。首次访问百思买时,该网站要求用户...

回答 1 投票 0

如何有条件地抓取元素并分离其内容?

我正在尝试从 IMBD 网站上抓取集数、季数、执行时间、原籍国和语言。 这是我使用的代码: 导入请求,

回答 2 投票 0

网页抓取元素:输出问题

我正在尝试从 IMBD 网站上抓取集数、季数、执行时间、原籍国和语言。 这是我使用的代码。 导入请求,

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.