beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

如何在 BeautifulSoup 中链接 find() 方法并处理 None ?

我正在编写一些 HTML 处理并且喜欢 BS4。我确实发现它有点冗长,希望有一些更好的方法来处理这个问题。 我很想像这样将我的发现链接在一起: 汤....

回答 1 投票 0

如何使用Python抓取Google SERP

我正在尝试抓取一些谷歌搜索结果。我遵循了网上的几个教程,但是我遇到了问题,结果包含您首先需要接受的“cookie 框”...

回答 2 投票 0

Beautifulsoup 从输出中删除括号

我正在尝试从网页获取html: 尝试: 描述=hun.select('#description > div.tab-pane-body > div > div > div > table') 除了: 描述=无 结果 = {"

回答 2 投票 0

Python Beautiufulsoup 链接查找处理 none

我正在编写一些 HTML 处理并且喜欢 BS4。我确实发现它有点冗长,希望有一些更好的方法来处理这个问题。 我很想像这样将我的发现链接在一起: 汤....

回答 1 投票 0

无法使用 Beautiful Soup 来废弃“<div class="tdb-block-inner td-fix-index">”

我正在尝试使用 BeautiFul soup 废弃一个网站并获取下面的文本,但无法获取此标题下的内容 a = 'https://insights.blackcoffer.com/how-will-covid-19-affect-the-...

回答 1 投票 0

网络抓取行跨度大于 1 的表

我想从 https://en.wikipedia.org/wiki/List_of_Eurovision_Song_Contest_host_cities 抓取第一个维基百科表格。困难在于表格合并了单元格(一些......

回答 1 投票 0

如何附加到正文顶部而不是底部?

我想附加这个html: cover = soup.new_tag('div', id='cover', attrs={"style": '位置:固定;高度:100%;宽度:100%;顶部:0;左侧:0;背景:#fff z 索引:9999;'}) 对...

回答 2 投票 0

从网络抓取数据

目前我有一个从特定网站爬取数据的项目,如下所示,这是我自 2023 年以来用于爬取的代码,现在在 2024 年网站已更改,我不知道如何修复

回答 1 投票 0

如何使用Python从IMDb网站提取一些信息?

我试图为大学研究收集一些有关电视节目的信息。 我从 IMBd 中抓取了 https://www.imdb.com/chart/toptv/ 网站上所有排名前 250 的电视节目的 URL。我储存了

回答 1 投票 0

为什么Beautiful Soup find_all没有找到页面中所有匹配的元素?

我想实现什么目标? 我正在尝试从此网页中抓取“玩家射击”表。更具体地说,我想从 stats_shooting 表中返回 tr 标签作为列表(w...

回答 1 投票 0

美汤find_all没有找到页面中所有匹配的元素

我想实现什么目标? 我正在尝试从此网页中抓取“玩家射击”表。更具体地说,我想从 stats_shooting 表中返回 tr 标签作为列表(w...

回答 1 投票 0

如何使用Python从网站中提取url?

我正在为一个大学项目工作,我想使用网络抓取和文本挖掘来分析最受欢迎的电视节目的特征。 所以我尝试从每个电视节目中抓取网址...

回答 1 投票 0

BeautifulSoup已安装但仍然出现导入错误:没有名为BeautifulSoup的模块

我成功安装了BeautifulSoup。这是最新的更新。但我仍然得到“ 导入错误:没有名为 BeautifulSoup 的模块 运行代码时。 需要帮助!!

回答 2 投票 0

如何使用 Beautiful Soup 在结束 body 标签之前插入元素?

在 HTML 页面的 中插入元素作为最后一个元素的最有效方法是什么?

回答 1 投票 0

使用 BeautifulSoup 在关闭 body 之前插入一个元素

将元素插入 HTML 页面正文中的最后一个元素的最有效方法是什么?

回答 1 投票 0

抓取 ESPN 梦幻棒球联盟球员观看列表

我正在尝试抓取我的观察列表上的球员,但由于联赛是私人的,我无法正常抓取,因为我必须先进行身份验证。我尝试了多种方法,例如通过我的coo...

回答 1 投票 0

如何在bs4.element.ResultSet类型对象中查找标签

我正在学习/进行网页抓取并遇到一个问题,我有一个 bs4.element.ResultSet 类型的对象 其中包含一些 div 标签,我想像在 bs4.BeautifulSoup 类型对象中那样提取它

回答 2 投票 0

这是抓取雅虎财经新网页的解决方案[重复]

尝试 AttributeError 时出现以下错误:“NoneType”对象没有属性“text” 导入请求 从 bs4 导入 BeautifulSoup 将 numpy 导入为 np 标题= { ...

回答 3 投票 0

如何抓取html

我对 html 相当陌生,并且在网络抓取方面遇到了一些挑战。在下面的 html 段落中,我尝试抓取 aria 标签中的“Data Scientist II”文本。 我对 html 相当陌生,并且在网络抓取方面遇到了一些挑战。在下面的 html 段落中,我试图在 aria-label 中抓取“Data Scientist II”文本。 <a data-control-id="6XxJ9ssOLIRDcWIL1z8RsQ==" tabindex="0" href="/jobs/view/3887162789/?eBP=NOT_ELIGIBLE_FOR_CHARGING&amp;refId=lrkBiI0LdRr1s7LD5Y1gkA%3D%3D&amp;trackingId=6XxJ9ssOLIRDcWIL1z8RsQ%3D%3D&amp;trk=flagship3_search_srp_jobs" id="ember2564" class="disabled ember-view job-card-container__link job-card-list__title job-card-list__title--link" aria-label="Data Scientist II"> 我的代码摘录如下: job_postings = soup.find_all('li', {'class': 'jobs-search-results__list-item'}) data = [] for job_posting in job_postings: try: job_title = job_posting.find('disabled ember-view job-card-container__link job-card-list__title job-card-list__title--link', class_='aria-label').get_text().strip() 但是代码没有产生结果。我怀疑我走在正确的轨道上,可以快速修复所需的最后一行代码。任何对此的帮助将不胜感激。 aria-label是A标签的属性。要使用 beautifulsoup 获取属性的值,您需要使用 element['attribute_name'] 或者在这种情况下 element['aria-label'] 你的代码应该是 job_title = job_posting.find('disabled ember-view job-card-container__link job-card-list__title job-card-list__title--link')['aria-label']

回答 1 投票 0

AttributeError:“NoneType”对象没有属性“text”。当网页抓取时

尝试 AttributeError 时出现以下错误:“NoneType”对象没有属性“text” 导入请求 从 bs4 导入 BeautifulSoup 将 numpy 导入为 np 标题= { ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.