beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

如何从具有相同类的多个元素中抓取数据?

我正在尝试从电子竞技统计网站(vlr.gg)中抓取一些数据。我决定使用 BeatifulSoup,但现在从相同的类名中抓取数据时遇到一些问题。 box5=soup.find_all("div&

回答 1 投票 0

如何从网页中抓取参展商名称和描述

我想从此链接中抓取所有参展商名称和信息:https://asiatechxsg.com/exhibitors/ 到 csv 文件中。 我这样写过: html = requests.get('https://asiatechxsg.com/

回答 1 投票 0

Python-BeautifulSoup-如何从多个同名类中导出数据

box5=soup.find_all("div",class_="match-header-vs-score") 对于方框 5 中的 p: matchtdetails=p.find("div",class_="match-header-vs-note").get_text(strip=True)

回答 1 投票 0

如何从维基百科的摘要部分/链接列表中抓取链接?

我正在尝试使用Python从维基百科上的“拜仁城镇和Gemeinden列表”中抓取大型维基百科页面的所有链接。问题是我不知道如何

回答 2 投票 0

从维基百科页面的摘要部分获取链接:使用Python从此维基页面提取所有链接

我正在尝试使用Python从维基百科上的“拜仁城镇和Gemeinden列表”中抓取大型维基百科页面的所有链接。问题是我不知道如何

回答 1 投票 0

如何从嵌套div中抓取图像和描述元数据?

我尝试从欧洲航天局图像库网站提取图像和描述元数据: https://www.esa.int/ESA_Multimedia/Sets/Earth_from_Space_image_collection/(result_type)/i...

回答 1 投票 0

如何使用 beautifulsoup python 提取href

下面的代码可以提取网站上的所有链接, 从 bs4 导入 BeautifulSoup 导入请求 r=requests.get("https://www.drishtiias.com/current-affairs-news-analysis-editorials") 汤=

回答 1 投票 0

如何专门自动抓取 wikipedia-info 框并使用 python 打印更多(其他)wiki 页面的数据?

如何专门自动抓取维基百科信息框并使用Python打印任何维基页面的数据?我的任务是自动打印维基百科信息框数据。这就是说我发现...

回答 1 投票 0

如何从不同长度的HTML表格中抓取准确的字段?

我正在尝试创建一个脚本来根据标题从表中抓取一些字段。问题是所有表及其表头的长度并不相同。 这是 HTML

回答 1 投票 0

无法修改脚本的逻辑以从不同长度的表中抓取准确的字段

我正在尝试创建一个脚本来根据标题从表中抓取一些字段。问题是所有表及其表头的长度并不相同。这是 HTML

回答 1 投票 0

我如何从 geeksforgeeks 上抓取我所在大学的排行榜?

我一直在尝试通过网络抓取一个名为 GeeksForGeeks 的编码平台的排行榜。 给定的代码应该工作得很好。但这根本不起作用。 导入请求 从 BS4 导入

回答 1 投票 0

属性错误:“DataFrame”对象在变量 netflix_data 中没有属性“append”

当我尝试使用 BeautifulSoup 学习网页抓取时,在使用 .append() 函数将数据插入字典(netflix_data)时遇到一些问题 这是我的整个源代码 进口潘...

回答 1 投票 0

为什么我无法列出我传递的参数对应的所有<li>?

我正在抓取 HTML 页面,我想将所有包含字符串“is”的 存储在列表中。然而,代码只存储前两个,我不知道我到底是什么 我正在抓取 HTML 页面,我想将所有包含字符串“is”的 <li> 存储在列表中。然而,代码只存储前两个,我不知道我到底做错了什么 我正在使用 BeautifulSoup 进行抓取 <ul class="fun-facts"> <li>Owned my dream car in high school <a href="#footer"><sup>1</sup></a></li> <li>Middle name is Ronald</li> <li>Never had been on a plane until college</li> <li>Dunkin Donuts coffee is better than Starbucks</li> <li>A favorite book series of mine is <i>Ender's Game</i></li> <li>Current video game of choice is <i>Rocket League</i></li> <li>The band that I've seen the most times live is the <i>Zac Brown Band</i></li> </ul> 我的代码 import re fun_facts = webpage.find('ul', attrs={'class', 'fun-facts'}) fun_facts_with_is = fun_facts.find_all('li', string=re.compile("is")) fun_facts_with_is 结果返回 [<li>Middle name is Ronald</li>, <li>Dunkin Donuts coffee is better than Starbucks</li>] 我正在寻找的结果: ['Middle name is Ronald', 'Dunkin Donuts coffee is better than Starbucks', "A favorite book series of mine is Ender's Game", 'Current video game of choice is Rocket League', "The band that I've seen the most times live is the Zac Brown Band"] 该行为在 beautifulsoup 文档中进行了说明: 如果一个标签包含多个内容,那么就不清楚 .string 应该指代什么,所以 .string 被定义为 None 在您的情况下,thing指的是<li>内的其他标签。 要获得结果,您可以修改代码: import re from bs4 import BeautifulSoup html_source = """\ <ul class="fun-facts"> <li>Owned my dream car in high school <a href="#footer"><sup>1</sup></a></li> <li>Middle name is Ronald</li> <li>Never had been on a plane until college</li> <li>Dunkin Donuts coffee is better than Starbucks</li> <li>A favorite book series of mine is <i>Ender's Game</i></li> <li>Current video game of choice is <i>Rocket League</i></li> <li>The band that I've seen the most times live is the <i>Zac Brown Band</i></li> </ul>""" webpage = BeautifulSoup(html_source, "html.parser") fun_facts = webpage.find("ul", attrs={"class", "fun-facts"}) out = [] for li in fun_facts.find_all("li"): if "is" in li.text: out.append(li.text) print(out) 打印: [ "Middle name is Ronald", "Dunkin Donuts coffee is better than Starbucks", "A favorite book series of mine is Ender's Game", "Current video game of choice is Rocket League", "The band that I've seen the most times live is the Zac Brown Band", ]

回答 1 投票 0

解析讨论论坛只能让我获得第一个用户评论,但不能获得其他用户回复

有人可以帮我一下吗,我似乎无法弄清楚这个问题。 我有一个 url 文件列表,如下所示: https://community.appian.com/discussions/f/administration/14/integrate-token-d...

回答 1 投票 0

抓取MDPI提取邮件地址

我有以下代码,应该从 MDPI(医学数据库)打开一个网页,并提取 20 篇文章的列表。然后,转到每篇文章的 URL,并提取找到的第一封电子邮件...

回答 1 投票 0

dict.has_key(somekey) 与 dict 中的 somekey 的作用不同

我最近在玩Beautifulsoup时遇到了一个奇怪的Python字典问题。我的代码看起来像这样。 导入 urllib2 从 BeautifulSoup 导入 BeautifulSoup 响应 = urllib2.

回答 2 投票 0

如何使用Python抓取交互式网页

我想知道如何抓取以下网站:http://chonos.ifop.cl/flow/ 该网页的右侧有一个地图,当您单击每个点时,它会显示在 Highcharts 中的左侧时间序列中

回答 1 投票 0

解析/抓取/python/requests/BeautifulSoup4。如何解析这个网站?

网站:https://www.nieruchomosci-online.pl/szukaj.html?3,mieszkanie,wynajem,,Szczecin:19503 我想解析所有广告,除了特色广告。问题是有不同的类......

回答 1 投票 0

美丽的汤找到所有点击按钮后找不到div

我正在尝试废弃这个网站。 当我尝试废弃与汽车设备网格相关的数据时,会出现此问题。我只能提取页面中已显示的元素,即使我

回答 1 投票 0

如何使用Python抓取HTML?

我正在编写一个Python脚本来从此页面抓取数据:https://www.immobiliare.it/search-list/?criterio=rilevanza&__lang=it&idContratto=1&idCategoria=1&raggio=300¢ro=45。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.