rvest 相关问题

rvest是R的一个软件包,它提供从网页中抓取信息的功能。

R 中运动表的网页抓取

我需要您的帮助/建议,使用 R 或 Python 从以下链接中网络抓取表格信息! https://euroleaguefantasy.euroleaguebasketball.net/en/stats-fantasy-euroleague 到目前为止我已经...

回答 1 投票 0

有没有办法使用 R Studio 从“检查源”页面从 Forex Factory 的事件中提取“event_type”?

我正在尝试从外汇工厂的日历页面中提取事件的“event_type”。例如,如果检查页面的源代码“https://www.forexfactory.com/calendar?week...

回答 1 投票 0

如何使用R从宏观趋势网站下载数据?

不久前我发现了 Greg 编辑的 R 代码(此处),它在很长一段时间内运行得很好。不幸的是,前段时间,它停止工作了,(至少对我来说),我想知道是否有人...

回答 1 投票 0

使用rvest包获取var下指定的内容

我想从链接https://www.betashares.com.au/fund/high-interest-cash-etf/中提取以下信息 我编写了以下代码: 链接<- "https://www.betashares.com.au/

回答 1 投票 0

rvest:选择不包含链接(<p>)的段落(<a>)

我是网络抓取新手。 我正在使用 R 中的 rvest 包来抓取网页内容,并且我想选择不包含链接 () 的段落 ()。 到目前为止,我在这方面还不是很成功

回答 2 投票 0

如何使用 R 从网络表中抓取下一页?

我想从这个网页上抓取每场比赛的市场价值表: https://www.transfermarkt.com/wettbewerbe/europa/wettbewerbe?plus=1 我使用下面的代码确实成功了: 图书馆(r...

回答 1 投票 0

如何在r中提取明显非标准的html标签的值页面标题

我有以下总结的html代码(html_file.html)。 页面标题 我有以下总结的 html 代码(html_file.html)。 <!DOCTYPE html> <html> <head> <title>Page Title</title> </head> <body> <div class="listing-wrapper__content"> <section class="card__amenities "> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity" itemprop="floorSize"><span data-testid="l-icon" role="document" aria-label="Tamanho do imóvel" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">...</svg></span> 94 - 100 m² </p> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity" itemprop="numberOfRooms"><span data-testid="l-icon" role="document" aria-label="Quantidade de quartos" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">...</svg></span> 3 </p> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity" itemprop="numberOfBathroomsTotal"<span data-testid="l-icon" role="document" aria-label="Quantidade de banheiros" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">...</svg></span>3</p> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity"><span data-testid="l-icon" role="document" aria-label="Quantidade de vagas de garagem" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"><...</svg></span>2</p> </section> </div> </body> </html> 我成功提取了前三个元素。例如: library(rvest) pagee <- read_html("html_file.html") nofrooms <- html_elements(pagee, ".listing-wrapper__content")%>%html_nodes("[itemprop='numberOfRooms']")%>%html_text() nofrooms 输出是 " 3 " 问题出在最后一个p标签。显然没有标准让我能够从这样的标签中提取信息。我尝试了以下方法但没有成功: nofgarage <- html_elements(pagee, ".listing-wrapper__content")%>%html_nodes("[aria-label='Quantidade de vagas de garagem']")%>%html_text() nofgarage 输出是 "" 结果如预期为空,因为我要提取的值不在span标签之间。 感谢您的帮助 关于您的示例代码并假设您只想最后提取数字,我们可以使用 xpath 参数的解决方法并排除 <svg> 标记内的所有内容,然后 purrr::discard 所有空字符串: library(rvest) library(purrr) html |> read_html(html) |> html_elements("p") |> html_nodes(xpath='//*[not(name()="svg")]/text()') |> html_text(trim=TRUE) |> purrr::discard(\(x) x == "") #> [1] "94 - 100 m²" "3" "3" "2" 来自OP的数据 html <- '<section class="card__amenities "> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity" itemprop="floorSize"><span data-testid="l-icon" role="document" aria-label="Tamanho do imóvel" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">...</svg></span> 94 - 100 m² </p> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity" itemprop="numberOfRooms"><span data-testid="l-icon" role="document" aria-label="Quantidade de quartos" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">...</svg></span> 3 </p> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity" itemprop="numberOfBathroomsTotal"<span data-testid="l-icon" role="document" aria-label="Quantidade de banheiros" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg">...</svg></span>3</p> <p class="l-text l-u-color-neutral-28 l-text--variant-body-small l-text--weight-regular card__amenity"><span data-testid="l-icon" role="document" aria-label="Quantidade de vagas de garagem" class="l-icon l-u-color-undefined"><svg viewBox="0 0 24 24" fill="none" xmlns="http://www.w3.org/2000/svg"><...</svg></span>2</p> </section>' 创建于 2023-09-15,使用 reprex v2.0.2

回答 1 投票 0

如何在使用 R 抓取表格时处理 rowspan 和 colspan

尝试从下表中删除数据 性别统计.html 尝试从下表中删除数据 性别统计.html <table class="default_table"> <thead> <tr> <th align="center" valign="middle" style="border-top:solid thin;border-bottom:solid thin" rowspan="1" colspan="1">List</th> <th align="center" valign="middle" style="border-top:solid thin;border-bottom:solid thin" rowspan="1" colspan="1">Values, n (%)</th> </tr> </thead> <tbody> <tr> <td rowspan="3" align="center" valign="middle" style="border-bottom:solid thin" colspan="1">Gender <br>Male <br>Female </td> <td align="center" valign="middle" rowspan="1" colspan="1"></td> </tr> <tr> <td align="center" valign="middle" rowspan="1" colspan="1">75 (74.3)</td> </tr> <tr> <td align="center" valign="middle" style="border-bottom:solid thin" rowspan="1" colspan="1">26 (25.7)</td> </tr> </tbody> </table> 我尝试使用下面的代码,但它返回一个类似于所附屏幕截图的表格。 library(rvest) tbls <- html_table(read_html("C:/Users/GenderStats.html")) for (t in 1:length(tbls)) { assign(paste0("Table", t), tbls[[t]]) } 有没有办法像下面附表那样? 这是一个解决方案,它提取 List 中的每个值,并在来自 tbls 的数据框中为其提供自己的行。然后只需删除带有空 Value: 的行 library(tidyverse) tbls[[1]] |> rownames_to_column() |> rowwise() |> mutate(List = str_split_1(List, " ")[[as.numeric(rowname)]]) |> filter(`Values, n (%)` != "") |> select(-rowname) # A tibble: 2 × 2 # Rowwise: List `Values, n (%)` <chr> <chr> 1 Male 75 (74.3) 2 Female 26 (25.7)

回答 1 投票 0

网站的抓取版本与浏览器版本不同

我想使用 R 或 bash 脚本(Windows 上的“curl”)来废弃网页。 但是,下载的文件不包含与浏览器上看到的信息相同的信息。好像有...

回答 1 投票 0

有没有办法使用 R 和 rvest 从 Etherscan.io 抓取 iframe?

我正在尝试从以下网址抓取信息:https://etherscan.io/token/0xdac17f958d2ee523a2206206994597c13d831ec7#balances 具体来说是页面下半部分的表格。我

回答 1 投票 0

了解如何从 Investing.com 获取 id 跨度之间的数据

我想使用 rvest 包从 Investing.Com 获取值。 URL =“https://www.forexfactory.com/calendar?day=Aug30.2023” 在HTML中,我需要的值放在一个span类之间...

回答 1 投票 0

研究如何获取id跨度之间的数据

我想使用rvest包从网页获取值。在 HTML 中,该值放置在 span 类 id 和 div 之间。 html 代码如下所示: 图书馆(rvest) 医生<- ' 我想使用 rvest 包从网页获取值。在 HTML 中,该值放置在 span 类 id 和 div 之间。 html 代码如下所示: library(rvest) doc <- '<div id="economicCurrentTime" class="ecoCurrentTime "> <span class="grayClockIcon">&nbsp;</span>Current Time: <span id="currentTime" class="bold blackFont" data-datetime="2023/09/01 19:27:02">19:27</span>&nbsp;&nbsp; <span id="timeZoneGmtOffsetFormatted">(GMT -4:00)</span>&nbsp;&nbsp; <span class="dropDownArrowGray"></span> </div>' 我想收集值“(GMT -4:00)”,使用 h <- read_html(doc) h %>% html_nodes('#economicCurrentTime__timeZoneGmtOffsetFormatted') 您可以使用 xpath 选项并仅选择 id 等于 timeZoneGmtOffsetFormatted 的“span”节点。 library(rvest) library(dplyr) h <- read_html(doc) html_elements(h, xpath='.//span[@id="timeZoneGmtOffsetFormatted"]') %>% html_text() #[1] "(GMT -4:00)"

回答 1 投票 0

我如何使用rvest从雅虎财经抓取完整的数据集

我试图通过网络抓取从雅虎财经获取比特币历史数据的完整数据集,这是我的第一个选项代码块: 图书馆(rvest) 图书馆(tidyverse) 加密地址 <- read_...

回答 2 投票 0

使用 rvest 在 R 中从网站上抓取表格

我想从 https://sebgroup.com/our-offering/prospectuses-and-downloads/rates/swap-rates 获取欧元掉期利率 关于这样的抓取问题已经有很多问题和答案了...

回答 1 投票 0

rvest 按特定类别从网站上抓取所有值

我正在尝试从此网站上抓取所有位置号码、街道地址和城市/州/邮政编码。我尝试了几种不同的方法,但没有成功,包括尝试从

回答 1 投票 0

如何使用 Rselenium 从表中获取特定数据?

我正在尝试抓取一个我认为正在使用Java脚本的表。我想获取指数(即 TSX)的数据。我想获得所有指数的“前一天数据”。我是刮皮...

回答 1 投票 0

从单列数据框中分离数据

我有一个看起来像这样的数据框 可复制的代码可以在这里找到:https://gist.github.com/jeffgswanson/703bb9eb1698518d1dd9aec43e91fefd 我想将其分为四栏:离开......

回答 1 投票 0

将具有多个表的站点中的表抓取到 r

我练习将网站上的表格转移到 R 中。感觉每个网站都需要自己独特的策略来做到这一点。我有一些,但我被这个难住了:https://www.cbss...

回答 1 投票 0

网络抓取(Rvest)后“日期”列导入不正确

我正在尝试从在线社交论坛中抓取多个链接/来源,但这些帖子来自不同的日期。例如,一个论坛主题可能会在 2020 年 12 月开放,而另一个论坛主题可能会在 202 年 7 月开放......

回答 0 投票 0

使用 Rstudio 基于 div id 进行网页抓取

我正在尝试从网站上抓取政府数据。但是,该网站没有表类,内容显示为 div id。该网站的网址是: https://nreganarep.nic.in/netnrega/

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.