beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

python 上的解析器返回一个空列表(我猜这是一个 HTML 类选择问题)

我的想法是:我想收集公寓的名称及其价格,作为网站上每套公寓的列表。 我在 python 上做了一个简单的解析器,但看起来我无法获取任何值,因为它返回一个

回答 1 投票 0

如何使用 Python 更新 Markdown 文件中 <img> 标签的 src 属性?

我有一个 Markdown 文件 README.md,其中包含 HTML 元素,例如带有属性 id 和 src 的 标签。我想使用 Pyt 以编程方式更新此 HTML 元素的属性...

回答 1 投票 0

为什么要验证两次 `href` 属性?

我在 Ryan Mitchel 的 Web Scraping with Python 中找到了以下 Web 抓取代码: 从 urllib.request 导入 urlopen 从 bs4 导入 BeautifulSoup 进口再 页面=设置() def getLinks(pageUr...

回答 1 投票 0

如何使用beautifulsoup提取XML标签下的文本内容研究设计

我有一个如下所示的 XML 文件: 研究设计 这是对童年急性病的二次分析 我有一个如下所示的 XML 文件: <sec id="sec2.1"> <title>Study design</title> <p id="p0055"> This is a secondary analysis of the Childhood Acute Illness and Nutrition (CHAIN) Network prospective cohort which, between November 2016 and January 2019, recruited 3101 children at nine hospitals in Africa and South Asia: Dhaka and Matlab Hospitals (Bangladesh), Banfora Referral Hospital (Burkina Faso), Kilifi County, Mbagathi County and Migori County Hospitals (Kenya), Queen Elizabeth Hospital (Malawi), Civil Hospital (Pakistan), and Mulago National Referral Hospital (Uganda). As described in the published study protocol, <xref rid="bib11" ref-type="bibr"> <sup>11</sup> </xref> children were followed throughout hospital admission and after discharge with follow-up visits at 45, 90 and 180-days post-discharge. Catchment settings differed in urbanisation, access to health care and prevalence of background comorbidities such as HIV and malaria. Prior to study start, sites were audited to optimise care as per national and World Health Organisation (WHO) guidelines. <xref rid="bib12" ref-type="bibr"> <sup>12</sup> </xref> Cross-network harmonisation of clinical definitions and methods was prioritised through staff training and the use of standard operation procedures and case report forms (available online, <ext-link ext-link-type="uri" xlink:href="https://chainnetwork.org/resources/" id="intref0010">https://chainnetwork.org/resources/</ext-link> ). </p> </sec> 如何使用 beatifulsoup 提取 <p id="p0055">元素中的文本? 用下面的代码解决这个问题似乎不起作用。 with open('test.xml', 'r') as file: soup = BeautifulSoup(file, 'xml') # Find and print all tags for tag in soup.find_all('sec'): print(tag.text) 非常感谢您的评论和帮助 您必须更具体地选择您的元素。 基于您的代码链.p到您的标签,始终获得所选<p>中的第一个<sec> for tag in soup.find_all('sec'): print(tag.p.get_text(strip=True))

回答 1 投票 0

如何使用Beautifulsoup从内部网页中提取链接tel的值?

我正在尝试编写一个脚本,可以收集有关手机的信息并将其添加到数据框中。我有这样一个带有客户 ID 的数据集。同时,电话号码存储在网络中

回答 1 投票 0

Python beautifulsoup 和 openpyxl

所以,我正在尝试使用 beautifulsoup 进行数据提取(网络爬虫/抓取器),并且我正在尝试迭代 html 中的每个标签以查找我想要的数据。我的目标是获得一个具体的

回答 2 投票 0

如何从亚马逊网站上抓取特定产品的客户评论总数?

我正在尝试使用 python 和漂亮的汤库从亚马逊页面上抓取客户评论的总数。诸如客户评级、星级之类的细节正在被删除,但不是 r...

回答 1 投票 0

使用JS解码网页

如何使用BeautifulSoup解码JS页面? buf = requests.get() 汤 = BeautifulSoup(buf,"html.parser") 解码“theglobeandmail.com/investing/markets/stocks/X...

回答 1 投票 0

使用 python 获取 YouTube 播放列表网址

如何获取存储的播放列表网址 此处:https://www.youtube.com/watch?v=VpTRlS7EO6E&list=RDOIhVs0FQ8xc&index=5 与bs4? 使用 从 bs4 导入 BeautifulSoup as bs 导入请求...

回答 4 投票 0

Python (BeautifulSoup) 只有 1 个结果

我知道有与此类似的问题已得到解答,我已经尝试申请但没有解决我的问题。 我的问题是在这个网站上:http://books.toscrape.com/catalogue/pa...

回答 3 投票 0

如何使用熊猫和漂亮的汤从棒球参考中刮出桌子?

我正在尝试抓取此网址上的投球统计信息,然后将数据帧保存到 csv 文件。 https://www.baseball-reference.com/boxes/ARI/ARI202204070.shtml 我当前的代码如下(Python 3.9...

回答 1 投票 0

BeautifulSoup 美化改变内容,而不仅仅是布局

我有一个 SVG 图像,它是一个 XML 文件。 如果我用 BeautifulSoup 解析它并未经修改地输出它,那么当我使用 prettify 时它会修改它。图像呈现不同的效果。文字向左移动...

回答 1 投票 0

如何使用 Python Playwright(或替代方案)将网站中的数据抓取到 CSV 文件中,同时避免访问错误并提高速度?

我正在尝试使用 Python 和 Playwright 从该网站抓取数据,但遇到了一些问题。浏览器以非headless模式运行,进程非常慢。当我尝试其他

回答 1 投票 0

为什么从 Instagram 抓取关注者计数失败?

我正在尝试抓取用户名数组的关注者数量。我正在使用美丽汤。 我正在使用的代码如下 导入请求 从 bs4 导入 BeautifulSoup def instagram_follo...

回答 4 投票 0

Instagram 粉丝数抓取 python

我正在尝试抓取用户名数组的关注者数量。我正在使用美丽汤。 我正在使用的代码如下 导入请求 从 bs4 导入 BeautifulSoup def instagram_follo...

回答 2 投票 0

使用 BeautifulSoup 从 <h1> 标签中提取文本时出现问题

我正在抓取页面https://www.eloatings.net/1999,并且我的代码在提取元素方面工作正常,但是当我尝试仅打印 标记内的文本时,它没有显示内容。 ... 我正在抓取页面https://www.eloatings.net/1999,我的代码在提取元素方面工作正常,但是当我尝试仅打印 <h1> 标签内的文本时,它没有显示内容。除了这部分之外,整个代码都有效。这是我的代码: import requests from bs4 import BeautifulSoup # Send a GET request to the page url = "https://www.eloratings.net/1999" response = requests.get(url) # Parse the content with BeautifulSoup soup = BeautifulSoup(response.content, 'html.parser') # Find the main div containing the h1 tag main_div = soup.find('div', id='main') # Check if main_div is found if main_div: h1_tag = main_div.find('h1') if h1_tag: # Print the complete content of the h1 tag print(f"Vollständiger Inhalt des h1-Tags: {h1_tag.get_text()}") else: print("Kein h1-Tag gefunden.") else: print("Kein div mit der ID 'main' gefunden.") 虽然代码有效(除了<h1>中的文本),但以下提取文本的代码片段不起作用: main_div = soup.find('div', id='main') if main_div: h1_tag = main_div.find('h1') if h1_tag: print(f"Vollständiger Inhalt des h1-Tags: {h1_tag.get_text()}") 有谁知道为什么文字丢失了?另外,如果您能提供有关提取和保存整个表格的帮助,我们将不胜感激! 这里的主要问题是内容是由 JavaScript 动态加载的,并且不存在于由 requests 使用的服务器的静态响应中。 您可以使用 selenium 来模仿浏览器行为并渲染上下文: from selenium import webdriver from bs4 import BeautifulSoup import time driver = webdriver.Chrome() # call the episodes of season driver.get('https://www.eloratings.net/1999') time.sleep(2) soup = BeautifulSoup(driver.page_source) print(soup.h1.get_text())

回答 1 投票 0

为什么通过特定类查找元素会导致空结果?

我正在使用 Python、Requests、bs4 库开发一个网络抓取项目。 我试图抓取 IPL 的网页,我想从该页面获取每个赛季每场比赛的所有详细信息。

回答 2 投票 0

Python:BeautifulSoup 抓取产量数据

我正在尝试从网站上抓取多个国家和多个期限的收益率表。 到目前为止我只得到空表: 虽然它应该看起来像: 到目前为止我一直在做以下...

回答 1 投票 0

如何通过 IMDB 分页容器加载系列的附加剧集?

我正在编写这段代码: 导入请求 从 bs4 导入 BeautifulSoup url = 'https://www.imdb.com/title/tt5189554/episodes/' 标题= { “连接”:“保持活动”, ”

回答 3 投票 0

检测Tag是否是块级元素?

如何检查 BeautifulSoup 标签是否是块级元素(例如 、、),还是像 、 这样的“短语内容”元素? 基本上我想要... 如何检查 BeautifulSoup 标签是否是块级元素(例如 <p>、<div>、<h2>)或“短语内容”元素(如 <span>、<strong>)? 基本上我想要一个函数,根据 HTML 规范,对于 <p> 标签内允许的任何标签返回 True,对于 <p> 标签内不允许的任何标签返回 false。 我问这个问题是因为我不想自己对允许的标签列表进行硬编码,但我无法从 bs4 或 html 文档中找到有关判断标签是否在表达内容的任何内容。 BeautifulSoup 已经知道哪些元素可以在 <p> 内使用,哪些元素不允许: >>> BeautifulSoup('<p><h2>') <html><body><p></p><h2></h2></body></html> >>> BeautifulSoup('<p><em>') <html><body><p><em></em></p></body></html> 如果Python的html模块能给我答案的话,我也很乐意使用。 我不确定美丽汤知道你在说什么。 它更像是使用某种引擎来解析和修复 HTML。 有这个方法soup.get_text() 它返回 HTML 中的所有文本。 也许您正在寻找这个。 如果没有,那么它将有助于理解为什么你需要这样的功能。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.