beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4，导入为bs4。

我正在使用Python和BeautifulSoup修改HTML文件，我可以更改标题的内容，但我找不到更改div类的方法。我的目标是转向：我正在使用Python和BeautifulSoup修改HTML文件，我可以更改标题的内容，但我找不到更改div类的方法。我的目标是转向： <div id="div1" class="blue_titles">test</div> 进入： <div id="div1" class="green_titles">test</div> 我查阅了文档，但无济于事。它可能就在我的脸上，但我找不到它。您可以简单地将新值分配给键class: from bs4 import BeautifulSoup soup = BeautifulSoup("""<div id="div1" class="blue_titles">test</div>""", "lxml") soup.find("div")['class'] = "green_titles" soup # <html><body><div class="green_titles" id="div1">test</div></body></html>

python html beautifulsoup

回答 1 投票 0

使用 BS4 和 python 抓取曼城网站

所以基本上，我想从 https://www.mancity.com/fixtures 网站中提取有关即将到来的比赛日期的所有文本，并将其放入列表中。问题是，我无法提取

python-3.x web-scraping beautifulsoup python-requests

回答 1 投票 0

为什么我在使用 bs4 和 lxml 时会收到额外的文本

我有 div 对象 20:17 ... 我有 div 对象 <div class="body"> <div class="pull_right date details" title="21.11.2024 20:17:23 UTC+07:00"> 20:17 </div> <div class="from_name"> Cheki_FNS </div> <div class="text"> Cash receipt received: from <strong>Komandor trading network</strong> (LLC "TS KOMANDOR") </div> </div> </div> 我使用下一个代码： with open("messages.html", "r", encoding="utf-8") as file: html_content = file.read() soup = BeautifulSoup(html_content, "xml") div_text = soup.find("div", class_="text") if div_text: print(div_text.get_text()) else: print("Error, class text not find") 我期待得到下一行 - “已收到现金收据：来自 Komandor 交易网络 (TS Komandor LLC)”，但我得到“20:17 Cheki_FNS 已收到现金收据：来自 Komandor 交易网络 (TS Komandor LLC)”科曼多有限责任公司）”。文本的某些部分超出了 div 对象的范围，这真的是一个问题吗？根据您的示例，您的选择是正确的，因此请确保您从文件中获得了准确的输入。您还应该检查以下几点：检查某些文件中是否存在另一个 <div>，其类别为 text 不要使用 xml 解析器，它是 HTML -> 概述解析器如果需要链接元素及其属性，可以使用css selectors from bs4 import BeautifulSoup soup = BeautifulSoup(html_content) print(soup.find("div", class_="text").get_text(strip=True)) print(soup.select_one("div.text").get_text(strip=True))

html web-scraping beautifulsoup

回答 1 投票 0

使用 bs4 和 lxml 时会收到额外的文本

我有 div 对象 20:17 ... 我有 div 对象 <div class="body"> <div class="pull_right date details" title="21.11.2024 20:17:23 UTC+07:00"> 20:17 </div> <div class="from_name"> Cheki_FNS </div> <div class="text"> Cash receipt received: from <strong>Komandor trading network</strong> (LLC "TS KOMANDOR") </div> </div> </div> 我使用下一个代码： with open("messages.html", "r", encoding="utf-8") as file: html_content = file.read() soup = BeautifulSoup(html_content, "xml") div_text = soup.find("div", class_="text") if div_text: print(div_text.get_text()) else: print("Error, class text not find") 我期待得到下一行 - “已收到现金收据：来自 Komandor 交易网络 (TS Komandor LLC)”，但我得到“20:17 Cheki_FNS 已收到现金收据：来自 Komandor 交易网络 (TS Komandor LLC)”科曼多有限责任公司）”。文本的某些部分超出了 div 对象的范围，这真的是一个问题吗？根据您的示例，您的选择是正确的，因此请确保您从文件中获得了准确的输入。您还应该检查以下几点：不要使用 xml 解析器，它是 HTML 可以使用CSS选择器从 bs4 导入 BeautifulSoup html_内容=''' <div class="pull_right date details" title="21.11.2024 20:17:23 UTC+07:00"> 20:17 <div class="from_name"> Cheki_FNS <div class="text"> 收到的现金收据：来自Komandor交易网络（有限责任公司“TS KOMANDOR”） </div> </div ''' 汤 = BeautifulSoup(html_content) print(soup.find("div", class_="text").get_text(strip=True)) print(soup.select_one("div.text").get_text(strip=True))

html beautifulsoup

回答 1 投票 0

使用网页抓取来检查商品是否有库存

我正在创建一个Python程序，它使用网络抓取来检查商品是否有库存。该代码是一个 Python 3.9 脚本，使用 Beautiful Soup 4 并请求抓取该项目的可用性。我...

python python-3.x web-scraping beautifulsoup

回答 4 投票 0

BeautifulSoup 未检测到 Divs

我正在尝试解析https://rateyourmusic.com/release/album/tyler-the-creator/igor/reviews/1/ 如果我将 html 文件本地下载到我的系统上，我可以访问具有 class_=review_body 的 div...

beautifulsoup html-parsing

回答 1 投票 0

如何抓取我想要的具体数据？

我正在第一次尝试数据抓取，但无法获取我想要的特定数据。最终，我想确定所有在

python parsing web-scraping beautifulsoup

回答 1 投票 0

从谷歌学术作者简介中提取原始论文链接

我整理了以下Python代码来获取随机作者发表的论文的链接（来自谷歌学者）：导入请求从 bs4 导入 BeautifulSoup as bs 将 pandas 导入为 pd ...

python beautifulsoup python-requests google-scholar

回答 1 投票 0

如何使用 BeautifulSoup 在 tripadvisor 上抓取评级和日期

我正在尝试在猫途鹰上抓取这家酒店的一些信息（评论、日期、评分）到目前为止，这是我的脚本：进口再导入 json 导入请求从请求导入获取来自 BS4 我...

python python-3.x web-scraping beautifulsoup

回答 2 投票 0

使用 div 标签进行网页抓取

有以下网站的截图：news ge 我想提取注释，正如您所看到的，它位于带有 c_comment 类的 div 标签下，所以我实现了以下代码：导入

python web-scraping beautifulsoup

回答 1 投票 0

美丽的汤复制链接文本

我有一个函数，旨在提取html以在另一个函数中将其呈现为pdf def setLinks(自身, 值): if isinstance(value, str) and ('<' in value and '>' in value):

python beautifulsoup

回答 1 投票 0

使用 Selenium 进行页面导航

出于个人兴趣，我想在以下网页上抓取汽车评论 www.cardekho.com/user-reviews/maruti-alto-800 我成功地用下面的代码在第一页上抓取了评论......

selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

［网页抓取］使用selenium进行页面导航

出于个人兴趣，我想在以下网页上进行报废汽车评论 www.cardekho.com/user-reviews/maruti-alto-800 我使用以下代码成功取消了第一页上的评论...

selenium-webdriver web-scraping beautifulsoup

回答 1 投票 0

尝试从雅虎财经网络抓取 S&P500 数据，但尽管格式正确但无法检索

我一直在尝试从雅虎财经网络抓取数据，特别是标准普尔 500 指数的历史数据，其网页网址为“https://finance.yahoo.com/quote/%5EGSPC/history/?period1=157407.. .

python web-scraping beautifulsoup

回答 1 投票 0

使用 BeautifulSoup 查找多个具有相同类的 div 中的所有“a”标签

我想在具有相同类的多个div中找到所有“a”元素。从 bs4 导入 BeautifulSoup links = soup.find_all("div", class_="va-columns").find_all("a"...

python python-3.x beautifulsoup

回答 1 投票 0

使用BeautifulSoup从文本框中提取标题

我正在尝试使用 beautiful soup 编写代码，打印此网页上左手灰色框中的链接文本。在这种情况下，代码应该返回 ** 结界抱石一个...

python html beautifulsoup

回答 1 投票 0

使用雅虎财经的 beautifulsoup 进行屏幕抓取适用于除一只股票之外的所有股票

我已经尝试了好几天来解决这个问题，但已经没有想法了。我正在使用 Python3 和 Beautifulsoup 从雅虎财经获取股票价格。它适用于大约一百种不同的情况...

python beautifulsoup

回答 1 投票 0

从元内容中提取文本

让我们假设我们有以下网站：第比利斯的房屋价格我已经实现了我的代码片段及其相应的结果： div_class =content.find_all("...

python web-scraping beautifulsoup

回答 1 投票 0

使用 BeautifulSoup 如何从具有多个类的元素中删除单个类？

我希望从具有多个类名的元素中删除单个类名，如下所示：我希望从具有多个类名的元素中删除单个类名，如下所示： <li class="name1 name2 name3"> <a href="http://www.somelink.com">link</a> </li> 我可以使用 BeautifulSoup 通过以下方式删除类： soup.find(class_="name3")["class"] = "" 但这会删除所有课程，而不仅仅是我想失去的课程。从你的html中，你可以看到， print soup.find(class_="name3").attrs {'class': ['name1', 'name2', 'name3']} 因此，soup.find(class_="name3")['class']只返回一个列表。您可以从中删除元素，就像您可以从列表中删除元素一样。喜欢， soup.find(class_="name3")["class"].remove('name1') 这将删除您想要失去的课程。您可以使用生成器表达式来重建您想要保留的类名 s = 'name1 name2 name3' s = ' '.join(i for i in s.split() if i != 'name3') >>> s 'name1 name2'

python beautifulsoup

回答 2 投票 0

提取跨度值

我觉得我已经很接近了，但在几个小时没有进展之后我正在尝试这里。我想抓取跨度值并将它们分配给变量或列表以进行进一步处理。导入请求从 BS4 导入

python pandas beautifulsoup

回答 1 投票 0

beautifulsoup 相关问题

最新问题