beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

BeautifulSoup AttributeError:“get_text”有时在同一代码中

有谁知道这个问题从何而来?我在几秒钟内运行相同的代码,有时它会给我这个错误,有时却不会。 页面 = requests.get(URL, headers=header...

回答 1 投票 0

迭代超过 10,000 个页面并获取数据,解析:欧洲志愿服务:从 EU-Site 收集机会的小型抓取工具

我正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到了数据... XML、CSV ... 包含以下字段:名称、国家/地区 - ...

回答 1 投票 0

如何用python从html页面中提取html链接?

从这段Python代码中, ... resp = logout_session.get(logout_url, headers=headers, verify=False, allowed_redirects=False) soup = BeautifulSoup(resp.content, "html.parser") 打印(汤.prettif...

回答 2 投票 0

Aws Glue 在使用 BeautifulSoup 运行 python 脚本时抛出错误

我有一个Python代码,可以使用Beautifulsoup从网站上抓取数据,并且在Jupyter.im中运行良好,尝试在awsglue中运行相同的脚本,并在glue中添加以下作业参数...

回答 1 投票 0

美丽的汤不在外跨内定位内跨

我正在尝试为 Udemy 课程构建一个价格跟踪器,就像一个个人项目一样,因为我经常检查该网站是否有我想购买的课程的销售情况。我正在尝试使用美丽汤来抢夺...

回答 1 投票 0

从雅虎财经废弃大量股票数据时出现问题

我想取消雅虎财经的“关键统计”选项卡。 HTML 页面包含我使用 Beautiful Soup 废弃的多个表。每个表仅包含 2 列,而我设法...

回答 1 投票 0

BeatuifulSoup 迭代超过 10,000 个页面并获取数据,解析:欧洲志愿服务:一个从 EU-Site 收集机会的小型抓取工具

我正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到数据... XML、CSV ... 具有这些字段:名称、国家/地区 - ...

回答 1 投票 0

如何从维基百科抓取列表?

我面临着与如何从维基百科中抓取列表并传输到数据框提出的问题类似的问题。我想从列表“现代战争少于 25...

回答 1 投票 0

使用Python和Beautiful Soup修改Confluence表

你好,我尝试在每次运行 python 代码时使用 python 自动修改汇合表(追加新行)。我能够连接到 Confluence API 并获取 Confluence 的主体...

回答 1 投票 0

我想抓取一个名字,但得到的输出是NONE

我正在抓取一个网站,想要提取名称和价格,但输出结果为“无”。我不知道我在这里做错了什么,因为我期待价格和名称的推出。

回答 1 投票 0

如何正确使用 Beautifulsoup 以免在 VSCode 中生成类型检查警报

页面源示例: 从 bs4 导入 BeautifulSoup、标签、结果集 从重新导入编译 页源=“”“ 页面来源示例: from bs4 import BeautifulSoup, Tag, ResultSet from re import compile page_source = """ <html> <body> <div class="block_general_statistics"> <table> <tbody> <tr> <th>Header 1</th> <td class="total">Data 1</td> </tr> </tbody> </table> </div> </body> </html> """ 最初用于减少行数和字符数,但会生成类型检查警报,并且还要注意find | text | strip在列表理解中所有这些字体颜色都是白色的,因为缺乏必要的组合: soup = BeautifulSoup(page_source, 'html.parser') table_stats = soup.find('div', class_=compile('block_general_statistics')).find('table') table_stats_body = table_stats.find('tbody').find_all('tr') thead = [th.find('th').text.strip() for th in table_stats_body] tbody = [th.find('td', class_='total').text.strip() for th in table_stats_body] 凭借我的基础知识,我能够解决所有警报并修复所有正确着色的字体,而不会因“缺乏功能”而变成白色: soup = BeautifulSoup(page_source, 'html.parser') table_stats = soup.find('div', class_=compile('block_general_statistics')) if type(table_stats) == Tag: table_stats = table_stats.find('table') if type(table_stats) == Tag: table_stats_body = table_stats.find('tbody') if type(table_stats_body) == Tag: table_stats_body = table_stats_body.find_all('tr') if type(table_stats_body) == ResultSet: thead = [] for th in table_stats_body: if type(th) == Tag: th = th.find('th') if type(th) == Tag: thead.append(th.text.strip()) tbody = [] for th in table_stats_body: if type(th) == Tag: th = th.find('td', class_='total') if type(th) == Tag: tbody.append(th.text.strip()) 是否有任何更智能的方法可以解决警报,但又不会使简单、简短的代码变得如此庞大、详细甚至将来难以进行更改? 将以下设置添加到settings.json: "python.analysis.diagnosticSeverityOverrides": { "reportAttributeAccessIssue": "none", "reportOptionalMemberAccess": "none" }, 这仅适用于那些不想修改代码而只是阻止错误的人。

回答 1 投票 0

JavascriptException:消息:javascript 错误:无法读取 null 的属性(读取“点击”)

我目前正在使用 Python Selenium WebDriver 从 HTML 网站提取信息。但是,当我访问某个网页时,该网站会显示一条消息,要求“请启用 Java...

回答 1 投票 0

网络抓取 Twitter 帖子

导入请求 从 bs4 导入 BeautifulSoup url = 'https://twitter.com/GeniResearch/status/1755137950403219646' 响应 = requests.get(url) 打印(响应) 汤 = BeautifulSoup(response.conten...

回答 1 投票 0

使用 Beautifulsoup 解析 HTML - Print 可以工作,但 Return 不行

为什么 print() 返回这些标签下的所有文本,而 return 却没有? 这是我正在使用的功能- def parse_html(数据): ls = [] htmlParse = BeautifulSoup(data, 'html.parser') ...

回答 1 投票 0

BeautifulSoup4 和 Pandas 返回空 DataFrame 列:更新:现在在 Google-Colab 上使用 Selenium

我正在寻找世界银行的公开名单 我不需要分支机构和完整地址,只需要名称和网站。我想到数据... XML、CSV ... 具有这些字段: 银行名称、国家/地区...

回答 1 投票 0

美汤也能主打网页活动吗?

Beautiful Soup 是一个用于从 HTML 和 XML 文件中提取数据的 Python 库。我将用它来提取网页数据,但我没有找到任何方法来单击我使用的按钮、锚点标签...

回答 1 投票 0

如何使用BeautifulSoup抓取脚本数据?

我正在尝试从脚本中抓取数据。首先我使用 soup.find_all 然后使用 js2py 转换它并最后打印所需的数据。但没有成功。我想知道如何收集 sellNum 信息...

回答 1 投票 0

如何使用python删除hmtl标签

我正在寻找一种方法来删除我的 ADO 维基页面上“内容”标记中保存的记录。 我检查了我的 url 页面所包含的 json 内容: def wiki_update(vm_list): pyautogui.hotkey('f...

回答 1 投票 0

从动态页面提取完整评论和评级时遇到问题

我想从网站上抓取提取数据: https://www.kununu.com/de/adidas/kommentare 但是,当我尝试通过 webdriver 提取整个 HTML 代码时,某些数据未提取。 失踪的达...

回答 1 投票 0

Headless chrome 和 html 解析器字符串

我目前正在使用 selenium 和 BeautifulSoup 来抓取网站,但我遇到了两个主要问题,首先,我无法让 Chrome 以无头模式启动,并且它说有多个

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.