rvest 相关问题

rvest是R的一个软件包,它提供从网页中抓取信息的功能。

用rvest抓取JavaScript

我一直在尝试从保存为javascript的网站上抓取轮询时间序列。到目前为止,选择“圆形”节点后,我最终得到一个空列表。下面的代码,任何一点...

回答 1 投票 0

错误503从同一个网站中抓取多个网址而没有错误503

我正在用500多个asins删除Amazon网页,这意味着500多个URL。我在每个asin进行刮擦之间使用sys.Sleep(6),而当R在asins号为100进行刮擦时使用sys.Sleep(300),但我...

回答 1 投票 1

R中的Web:为什么我的循环返回NA?

我之前在这里发布过有关同一问题的信息,但另一条线索正在消亡,我感到绝望。我正在尝试使用rvest等抓取网页。大多数内容都可以使用,但是现在我需要R来...

回答 1 投票 0

用r删除ajax站点

有人知道我可以用httr和rvest抓取此网站还是该网站,还是应该使用硒或phantomjs?这两个站点似乎都在使用ajax,而我似乎无法通过它。 ...

回答 1 投票 2

用Rvest删除Wikipedia表(错误)

我正在尝试在此Wikipedia页面上刮取一张表:https://en.wikipedia.org/wiki/United_Kingdom_Parliament_constituencies具体来说,该表位于“英格兰”部分下。这是我的代码:...

回答 1 投票 0

R:带有隐藏字段的Web抓取.aspx表单,“未知字段名称”错误

[两天来,我一直在尝试困惑如何填写表格并将其提交以从https://www.igb.illinois.gov/VideoReports.aspx下载.csv文件。我似乎无法破解,...

回答 1 投票 0

RVest返回{xml_nodeset(0)}

我正在使用R中的rvest软件包在以下网站https://infogram.com/detallecasos-1h7z2l9yqgdy2ow上抓取数据帧。但是我得到了{xml_nodeset(0)},我试图用...解决它。 >

回答 1 投票 0

如何使用R从多个“ div类”(html)中提取文本?

我的目标是从此html页中提取信息以创建数据库:https://drive.google.com/folderview?id=0B0aGd85uKFDyOS1XTTc2QnNjRmc&usp=sharing变量之一是......的价格...]] >>

回答 1 投票 0

如何从R中的某个站点抓取公司评级

我从未使用过HTML或CSS,但是我知道R,所以我在线上和在Stack上都研究了几种抓取方法,以便在R中使用它。我一直在从工作中提取公司评级时遇到问题...

回答 1 投票 0

数据帧中的二进制操作

关于数据帧中的二进制运算,我有一个小问题。在这里,我有一个数据框,我想创建一个新列PerWeek,这是将Gross除以Weeks所得的结果,我是...

回答 1 投票 0

从公共Google表格中抓取数据-相同的URL用于不同的标签

我想从Google表格的公共网页上抓取数据。这是链接。我对第4个标签中的数据特别感兴趣,即“美国东部时间下午4点”,但是该标签的网址是...

回答 1 投票 0

R:如何打开链接列表以刮取新闻网站的首页?

[我正在尝试构建一个网络抓取工具,以使用R抓取新闻网站www.20min.ch上发布的文章。它们的api是可公开访问的,因此我可以创建一个包含标题,URL等的数据框。]

回答 1 投票 1

在R中废弃tbody类对象>>

我对使用R进行网页剪贴完全陌生,我想剪贴一下表现为tbody的下表(图片)。如果运行以下代码,则只会看到标题,而没有数据(网站位于...

回答 2 投票 1

RVEST从“下拉”列表中选择一个项目并提交表格

我正在使用rvest抓取一个网站,以下载表中的所有数据。步骤1正在运作。我没有正确获得步骤2:步骤1:library(rvest)library(httr)url

回答 1 投票 0

rvest:基于内部类文本和内部svg元素的数量过滤节点 这里可能的解决方案是找到所有父级速率节点,然后计算每个父级的img节点数。

我的HTML看起来像: <这里可能的解决方案是找到所有父级速率节点,然后计算每个父级的img节点数。library(rvest) library(magrittr) page<-read_html('<div class="rates"> <div class="rate"> <span class="title">A</span> <img src="x.svg" alt="" width="20"><img src="x.svg" alt="" width="20"><img src="x.svg" alt="" width="20"> </div> <div class="rate"> <span class="title">B</span> <img src="y.svg" alt="" width="20"><img src="y.svg" alt="" width="20"> </div> </div>') #find all of parent nodes ratenodes<-page %>% html_nodes("div.rate") #find a single title node per parent titles<-ratenodes %>% html_node("span.title") %>% html_text() #Count the number of img nodes per parent. imgnums <-sapply(ratenodes, function(node) { node %>% html_nodes("img") %>% length()}) answer<-data.frame(titles, imgnums)

回答 1 投票 1

如何使用rvest从网页中提取选择性数据?

我一直在尝试使用Pitchfork中r中的rvest在r中显示这首歌的评价等级。https://pitchfork.com/reviews/albums/us-girls-heavy-light/。在这种情况下,它是8.5。但是以某种方式我得到了这个:...

回答 1 投票 1

我如何在r中使用rvest从网页中提取选择性数据?

我一直在尝试使用Pitchfork中r中的rvest在r中显示这首歌的评价等级。https://pitchfork.com/reviews/albums/us-girls-heavy-light/。在这种情况下,它是8.5。但是以某种方式我得到了这个:...

回答 1 投票 1


抓取网站时何时传递标题

我正在尝试理解xml2 / rvest命令何时实际查询网站,以及何时需要指定标头,以避免传递默认标头。库(httr)库(xml2)...

回答 1 投票 0

如何通过RVest将Google新闻结果抓取到data.frame中

通过其他SO问题,我找到了如何获得头条新闻,但我不知道Google代码在哪里存储链接。我想要标题及其相应链接的2列data.frame。 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.