rvest 相关问题

rvest是R的一个软件包,它提供从网页中抓取信息的功能。

使用 Rselenium 抓取 google 知识图谱

我正在尝试访问谷歌搜索右侧的元素,有时称为知识图。我特别对简短的个人简介(通常是维基百科片段)和外部感兴趣......

回答 1 投票 0

难以处理 Rvest 数据抓取中的缺失信息

我目前正在使用 rvest 包在 R 中开发一个网页抓取项目。虽然该包适用于从网站提取数据,但我在处理丢失的数据时遇到了困难

回答 1 投票 0

大学课程纪律作业的网络抓取

我想用 R 抓取大学课程目录。我的代码已经相当不错了,但是学科和子学科的课程分配尚未按照我想要的方式工作。 这...

回答 1 投票 0

从网页抓取中提取文本

我正在尝试从网站获取文本 我的代码有效(有点) for (i in 1:no_urls) { this_url=urls_meetings[[i]] 页面=read_html(this_url) 文本=页面 |> html_elements("body") |&...

回答 1 投票 0

如何解决从 R 读取雅虎财经时出现的 HTTP 错误 503?

以下代码 rvest::read_html("https://finance.yahoo.com/quote/VWIUX") 产生 open.connection(x, "rb") 中的错误:HTTP 错误 503。 我知道网址没问题,因为粘贴...

回答 1 投票 0

使用选择器小工具在 R 中进行网页抓取

我正在尝试抓取以下网站:https://au.finance.yahoo.com/quote/META/analysis 我遇到了一些问题: 我使用选择器小工具突出显示表格。但它不起作用,因为它...

回答 1 投票 0

R rvest Web 抓取 JSON 格式

我正在尝试从 https://www.wheeloratings.com/tennis_wta_ ratings.html 网络抓取数据。我已经从其代码的第 367 行中获取了数据所在的确切行 查看来源:http...

回答 1 投票 0

从财政部网站上删除联邦票据收益率表

我想从财政部网站下载 10 年期联邦票据收益率:https://www.treasury.gov/resource-center/data-chart-center/interest-rates/Pages/TextView.aspx?数据=产量 解析...

回答 2 投票 0

将网页中的表格转换为数据框

我正在寻找一种解决方案,将网页 u 中的数据表(请参阅下面的详细信息)复制到数据框中。我的代码很短,因为我很难弄清楚如何获取该表......

回答 1 投票 0

R 中的动态网页抓取

我正在尝试抓取有关R中小行星轨道的信息。我尝试过rvest和selectorgadget,但是该网站是动态的。网站是:https://ssd.jpl.nasa.gov/tools/sbdb_lookup....

回答 1 投票 0

使用 R 抓取动态内容网站的困难

图书馆(阅读器) 图书馆(tidyverse) 图书馆(rvest) 工资_链接 <- "https://www.spotrac.com/mlb/rankings/salary/pitching/" salary_page <- read_html(salary_link) salaries <- html_text(

回答 1 投票 0

使用read_html时如何识别要抓取哪个元素?

尝试从此 URL 上的主表中提取数据,但 read_html 却从页面顶部下拉菜单中隐藏的表中提取数据。这个网址 我尝试指定桌号,但是

回答 1 投票 0

如何使用 rvest 从电影的 IMDB 页面中抓取流派?

我正在尝试从 IMDB 页面上抓取一部电影的标准数据(标题、年份、评级、流派),但我陷入了流派。没有像以前那样的 .genre 类(并且常用......

回答 1 投票 0

网页抓取问题

我正在尝试为工作项目解决第一个网络抓取问题,但我在提取所需信息时遇到了问题。我怀疑这与包含

回答 1 投票 0

curl::curl_fetch_memory(url, handle = handle) 中的错误:URL 使用错误/非法格式或缺少 URL

我有这个功能无法运行。代码内部的命令在单独应用时有效,但是当我在此 lapply 函数中运行它时,它会出错。我尝试过更新我的 Curl Libra...

回答 1 投票 0

html_element 返回 NA,我可以理解为什么

我正在使用 R 进行网络抓取,并尝试为 IMDB 的前 250 部电影提取数据帧。到目前为止我的代码很短: 图书馆(tidyverse) 图书馆(rvest) 页面 = read_html('https://www.i...

回答 1 投票 0

从标题(h2,h3,表格)中提取层次信息与休息

在此网站 https://www.quebec.ca/agriculture-environnement-et-ressources-naturelles/faune/gestion-faune-habitats-fauniques/especes-fauniques-menacees-vulnerables/liste 上,有以下表格特...

回答 1 投票 0

从网站上抓取表格仅返回空表格

我尝试从链接中删除表格:https://archive.twitter-trending.com/united-states/16-11-2023。 我的目标是从此链接获取所有表格。我使用以下代码: 图书馆(rvest) 图书馆(dplyr) 链接...

回答 1 投票 0

使用 rvest 从多个页面抓取时避免 404 错误

这是我的问题的后续。 提供的代码确实给出了所需的输出,但是当页面不存在时似乎存在问题,我正在尝试使用 try/catch 来避免这些

回答 1 投票 0

R - 使用 rvest 抓取受密码保护的网站,而无需在每次循环迭代时登录

我正在尝试使用 rvest 包从 R 中受密码保护的网站中抓取数据。我的代码当前在循环的每次迭代中都会登录到网站,该循环将运行大约 15,000 次。这...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.