用R刮擦HTML表

问题描述 投票:0回答:1

我正在尝试使用rvest软件包将11列表从该URL上刮下来:https://www.iexindia.com/marketdata/rtm_market_snapshot.aspx

到目前为止,我一直在尝试使用以下代码:

mrkt_snpshot <- read_html("https://www.iexindia.com/marketdata/rtm_market_snapshot.aspx")

my_data <- mrkt_snpshot %>%
  html_nodes("table") %>%
  html_table(fill=T)

这将返回URL上的27个HTML表的列表作为数据帧,其中一些表最多包含831个变量。我也用这个:

my_data <- mrkt_snpshot %>%
  html_node("table.Ab7d468cb4fc14dedb1fcfeae435d33ac132") %>%
  html_table()

但是这只会返回一个空列表。

我需要帮助,以便在有数据可用的每个日期仅提取具有11列的表。如果可能,我还需要自动执行此操作以在每天结束时提取数据。

谢谢!

r web-scraping rvest
1个回答
0
投票

这将为您提供您要查找的表:

© www.soinside.com 2019 - 2024. All rights reserved.