beautifulsoup 相关问题

Beautiful Soup是一个用于解析HTML / XML的Python包。此软件包的最新版本是版本4,导入为bs4。

使用物种和菌株名称、使用网络抓取(使用 BeautifulSoup 或 Selenium)难以提取 GenBank 登录号

我需要使用 BeautifulSoup 和/或 Selenium 从网页中提取特定信息。我正在尝试从网页中提取与特定生物体相关的信息,但我遇到了

回答 1 投票 0

网页抓取 Google Scholar 输出的链接比预期多,而且似乎无法过滤它们

我对Python总体来说还是个新手(大家好)。我正在尝试对 Google Scholar 进行网络抓取,到目前为止,进展相当顺利(有很多令人头疼的问题,但我正在实现目标)。我现在的问题是

回答 1 投票 0

标题:使用物种和菌株名称、使用网页抓取(使用 BeautifulSoup 或 Selenium)难以提取 GenBank 登录号

我需要使用 BeautifulSoup 和/或 Selenium 从网页中提取特定信息。我正在尝试从网页中提取与特定生物体相关的信息,但我遇到了

回答 1 投票 0

使用 python 和 beautifulsoup 进行网站表抓取返回“none”或空

我试图通过一个简单的请求从该表中抓取数据,但在尝试使用表类后,它返回“none”: table = soup.find("table", class_ = "hp") 并尝试...

回答 1 投票 0

使用 Selenium 返回正在显示的 PDF 页面

我让 Selenium 从 Google 搜索中为我打开许多 pdf 文件(使用 f"https://www.google.com/search?q=filetype:pdf {search_term}",然后单击第一个链接) 我想知道哪个...

回答 1 投票 0

使用 BeautifulSoup 从 Reddit 页面上抓取评论的时间戳数据不会返回任何内容

出于研究目的,我正在尝试抓取 Reddit 线程中所有评论的时间戳。截至目前,该帖子共有约 700 条评论。所以我想到了抓取这些数据的最佳方法

回答 1 投票 0

网页抓取 - 执行“全部复制”而不是 HTML 解析

我需要有关如何在不进行正常 HTML 解析的情况下从网页捕获数据的建议。数据通过我无法看到的幕后脚本和服务器端方法呈现到屏幕上......

回答 1 投票 0

使用 A 标签从 Wikipedia 上的 Div 文本中从链接中抓取到列表 DataFrame BeautifulSoup

我正处于编码的初级阶段...尝试使用“a”标签从 div 中的歌曲链接中抓取文本。然而,我只能得到alp中每个字母的第一首歌......

回答 1 投票 0

BeautifulSoup AttributeError:“get_text”有时在同一代码中

有谁知道这个问题从何而来?我在几秒钟内运行相同的代码,有时它会给我这个错误,有时却不会。 页面 = requests.get(URL, headers=header...

回答 1 投票 0

迭代超过 10,000 个页面并获取数据,解析:欧洲志愿服务:从 EU-Site 收集机会的小型抓取工具

我正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到了数据... XML、CSV ... 包含以下字段:名称、国家/地区 - ...

回答 1 投票 0

如何用python从html页面中提取html链接?

从这段Python代码中, ... resp = logout_session.get(logout_url, headers=headers, verify=False, allowed_redirects=False) soup = BeautifulSoup(resp.content, "html.parser") 打印(汤.prettif...

回答 2 投票 0

Aws Glue 在使用 BeautifulSoup 运行 python 脚本时抛出错误

我有一个Python代码,可以使用Beautifulsoup从网站上抓取数据,并且在Jupyter.im中运行良好,尝试在awsglue中运行相同的脚本,并在glue中添加以下作业参数...

回答 1 投票 0

美丽的汤不在外跨内定位内跨

我正在尝试为 Udemy 课程构建一个价格跟踪器,就像一个个人项目一样,因为我经常检查该网站是否有我想购买的课程的销售情况。我正在尝试使用美丽汤来抢夺...

回答 1 投票 0

从雅虎财经废弃大量股票数据时出现问题

我想取消雅虎财经的“关键统计”选项卡。 HTML 页面包含我使用 Beautiful Soup 废弃的多个表。每个表仅包含 2 列,而我设法...

回答 1 投票 0

BeatuifulSoup 迭代超过 10,000 个页面并获取数据,解析:欧洲志愿服务:一个从 EU-Site 收集机会的小型抓取工具

我正在寻找欧洲志愿服务的公开列表:我不需要完整的地址 - 但需要名称和网站。我想到数据... XML、CSV ... 具有这些字段:名称、国家/地区 - ...

回答 1 投票 0

如何从维基百科抓取列表?

我面临着与如何从维基百科中抓取列表并传输到数据框提出的问题类似的问题。我想从列表“现代战争少于 25...

回答 1 投票 0

使用Python和Beautiful Soup修改Confluence表

你好,我尝试在每次运行 python 代码时使用 python 自动修改汇合表(追加新行)。我能够连接到 Confluence API 并获取 Confluence 的主体...

回答 1 投票 0

我想抓取一个名字,但得到的输出是NONE

我正在抓取一个网站,想要提取名称和价格,但输出结果为“无”。我不知道我在这里做错了什么,因为我期待价格和名称的推出。

回答 1 投票 0

如何正确使用 Beautifulsoup 以免在 VSCode 中生成类型检查警报

页面源示例: 从 bs4 导入 BeautifulSoup、标签、结果集 从重新导入编译 页源=“”“ 页面来源示例: from bs4 import BeautifulSoup, Tag, ResultSet from re import compile page_source = """ <html> <body> <div class="block_general_statistics"> <table> <tbody> <tr> <th>Header 1</th> <td class="total">Data 1</td> </tr> </tbody> </table> </div> </body> </html> """ 最初用于减少行数和字符数,但会生成类型检查警报,并且还要注意find | text | strip在列表理解中所有这些字体颜色都是白色的,因为缺乏必要的组合: soup = BeautifulSoup(page_source, 'html.parser') table_stats = soup.find('div', class_=compile('block_general_statistics')).find('table') table_stats_body = table_stats.find('tbody').find_all('tr') thead = [th.find('th').text.strip() for th in table_stats_body] tbody = [th.find('td', class_='total').text.strip() for th in table_stats_body] 凭借我的基础知识,我能够解决所有警报并修复所有正确着色的字体,而不会因“缺乏功能”而变成白色: soup = BeautifulSoup(page_source, 'html.parser') table_stats = soup.find('div', class_=compile('block_general_statistics')) if type(table_stats) == Tag: table_stats = table_stats.find('table') if type(table_stats) == Tag: table_stats_body = table_stats.find('tbody') if type(table_stats_body) == Tag: table_stats_body = table_stats_body.find_all('tr') if type(table_stats_body) == ResultSet: thead = [] for th in table_stats_body: if type(th) == Tag: th = th.find('th') if type(th) == Tag: thead.append(th.text.strip()) tbody = [] for th in table_stats_body: if type(th) == Tag: th = th.find('td', class_='total') if type(th) == Tag: tbody.append(th.text.strip()) 是否有任何更智能的方法可以解决警报,但又不会使简单、简短的代码变得如此庞大、详细甚至将来难以进行更改? 将以下设置添加到settings.json: "python.analysis.diagnosticSeverityOverrides": { "reportAttributeAccessIssue": "none", "reportOptionalMemberAccess": "none" }, 这仅适用于那些不想修改代码而只是阻止错误的人。

回答 1 投票 0

JavascriptException:消息:javascript 错误:无法读取 null 的属性(读取“点击”)

我目前正在使用 Python Selenium WebDriver 从 HTML 网站提取信息。但是,当我访问某个网页时,该网站会显示一条消息,要求“请启用 Java...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.