beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

为什么BeautifulSoup无法从HTML中找到特定的表格元素？

我无法获取代码来查找比赛表格表中找到的文本（在下面的元素中突出显示）。实际获取该文本的适当元素是什么？导入请求从 BS4 导入

python web-scraping beautifulsoup python-requests

回答 1 投票 0

我在使用 BeautifulSoup 代码在网页中查找 td 类文本时遇到问题

我无法获取代码来查找比赛表格表中找到的文本（在下面的元素中突出显示）。实际获取该文本的适当元素是什么？导入请求从 BS4 导入

python web-scraping beautifulsoup python-requests

回答 1 投票 0

使用 Python BrickEconomy 网站进行数据抓取

我正在使用我编写的代码从网站“https://www.brickeconomy.com/sets/year/2024”抓取数据。我设法从表中提取乐高套装的名称，但我无法访问...

python python-3.x web-scraping beautifulsoup

回答 1 投票 0

禁止beautifulsoup中的url警告

我正在使用 Beautiful Soup 4 来解析一些从互联网上抓取的 html 格式的文本。有时，该文本只是某些网站的链接。 BS4 非常生气的一个事实是：用户警告：“...

python beautifulsoup

回答 2 投票 0

使用Python（Selenium + BeautifulSoup）从交互式图表中提取数据

我需要从此链接中的资产演变图表中提取数据（示例）：https://investidor10.com.br/carteira/572422/（附有图表图像）。我需要我存在的所有条形图的数据...

python selenium-webdriver web-scraping beautifulsoup web-crawler

回答 1 投票 0

如何使用BeautifulSoup从HTML中抓取表格数据？

我一直在尝试从这个网站上抓取表格https://www.alphaquery.com/stock/aapl/earnings-history 但我无论如何也无法实现它。我什至找不到桌子。导入请求来自 BS4 我...

python web-scraping beautifulsoup html-table python-requests

回答 1 投票 0

如何从 HTML 中抓取表格数据？

我一直在尝试从这个网站上抓取表格https://www.alphaquery.com/stock/aapl/earnings-history 但我无论如何也无法实现它。我什至找不到桌子。导入请求来自 BS4 我...

python web-scraping beautifulsoup html-table python-requests

回答 1 投票 0

用硒刮痧/beautifulsoup

我一直在尝试从这个网站上抓取表格https://www.alphaquery.com/stock/aapl/earnings-history 但我无论如何也无法实现它。我什至找不到桌子。导入请求来自 BS4 我...

selenium-webdriver beautifulsoup

回答 1 投票 0

通过Python或其他更好的工具根据日期自动将每日更新的多个网页转换为单个pdf

我正在准备考试，这些网站会定期上传时事。我不想每天重新打开这些多个网站，而是想通过下载来简化这个过程......

python powershell selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

如何解析并提取包含::marker的标签？

所以我试图从网站上删除一些数据，并且我想提取中的文本所以我试图从网站上删除一些数据，并且我想提取中的文本 <ul> <li> ::marker (text) </li> <li> ::marker (text) </li> </ul> 这是我尝试过的，但没有返回其他 from bs4 import BeautifulSoup import requests url = *the link of the website page = requests.get(url) soup = BeautifulSoup(page.text, 'html.parser') reference = soup.find("li") print(reference.text) #output is None 由于有多个项目，因此可能需要使用 find_all，然后迭代这些条目，在每个项目上调用 get_text；像这样的东西： list_items = soup.find_all("li") for element in list_items: print(element.get_text()) 您可以添加一些额外的代码来检查 find_all 是否确实返回至少一个元素。

python html parsing beautifulsoup

回答 1 投票 0

如何使用 bs4 从元素中提取文本

我正在抓取Airbnb（链接到下一页），我想要得到的东西之一是房东从什么时候开始托管，如下图所示（用红笔标记）：图像示例代码...

python beautifulsoup

回答 1 投票 0

通过Python获取HTML的Span类中的数据

我正在尝试从网站获取跨度类之一中的数据。目前，我捕获了数据的正确位置，但无法获取课堂文本。我的代码：导入请求从 BS4 导入

python beautifulsoup

回答 1 投票 0

使用 Beautiful Soup 获取第二个 srcset 属性

我正在尝试获取beautiful Soup中的第二个srcset属性，原始html如下：我正在尝试获取beautiful Soup中的第二个srcset属性，原始html如下： <picture class="card-picture ratio ratio-4x3"> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&rmode=pad&width=640&rmode=pad&width=640&format=webp" type="image/webp"/> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&rmode=pad&width=640&rmode=pad&width=640" type="image/jpeg"/> <img alt="" class="card-img object-fit-contain is-contain" loading="lazy" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7"> </img> </picture> 我的代码： for result in results: imgel = result.find("source", attrs = {'srcset' : True})['srcset'] 这将返回第一个 srcset 值 _ 我想获取第二个值 png URL 只需选择所有 <source> 标签并使用正常索引： from bs4 import BeautifulSoup html_source = """\ <picture class="card-picture ratio ratio-4x3"> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&rmode=pad&width=640&rmode=pad&width=640&format=webp" type="image/webp"/> <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&rmode=pad&width=640&rmode=pad&width=640" type="image/jpeg"/> <img alt="" class="card-img object-fit-contain is-contain" loading="lazy" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7"> </img> </picture>""" soup = BeautifulSoup(html_source, "html.parser") results = soup.select("picture") for result in results: second_img = result.select("source")[1] print(second_img) 打印： <source srcset="/shop/media/L004D000_picture.PNG?context=bWFzdGVyfGltYWdlc3wzMDE3NTN8aW1hZ2UvcG5nfGgwMS9oMjcvODg0ODIyMDYxODc4Mi9MMDA0RDAwMF9waWN0dXJlLlBOR3wyZjRiZWE1NDU2MWU1MjUzMzU5MjAwNGVlYmIzY2MwNGQzODExMDI3NjNkMDE3YjQ4NGMwNjFlMGVkNTU2OWIy&rmode=pad&width=640&rmode=pad&width=640" type="image/jpeg"/>

python beautifulsoup

回答 1 投票 0

如何抓取足球周结果

我想获得虚拟足球联赛的结果，并根据此 Excel 文件中所示的周进行排列，我正在尝试从该网站 https://odibets.com/league...

python html web-scraping beautifulsoup

回答 2 投票 0

如何使用 selenium / requests / beautifulsoup 将表抓取到数据框中？

我的目标是对于网站https://data.eastmoney.com/executive/000001.html，当你向下滚动时，你会发现一个大桌子我想把它变成Python中的DataFrame。汤很美

python selenium-webdriver web-scraping beautifulsoup selenium-chromedriver

回答 2 投票 0

如何从网络上爬取此类数据并在Python中将其转换为DataFrame？我必须使用 Selenium 才能做到这一点吗？或者BeautifulSoup足以抓取它吗？

我的目标是对于网站https://data.eastmoney.com/executive/000001.html，当你向下滚动时，你会发现一个大桌子我想把它变成Python中的DataFrame。汤很美