R 网络抓取新手 - 如何使用 rvest 包抓取 IMDB 电影数据?

问题描述 投票:0回答:1

我对 R 中的网页抓取还很陌生,而且对 HTML 代码不太熟悉。我正在尝试从 https://www.imdb.com/search/title/?sort=user_ rating,desc&groups=top_250 上的前 50 部 IMDB 电影中抓取数据。我知道使用 read_html 它给了我一个 XML 对象,然后我知道我需要使用 html_nodes 来提取电影标题。但因为我对 html 不太熟悉,所以我很难弄清楚这些节点的名称。有人能指出我正确的方向吗?

library(rvest)
library(dplyr)
website <- "https://www.imdb.com/search/title/?sort=user_rating,asc&groups=top_250"
page <- read_html(website)
movie_titles <- page %>%
  html_nodes("node_name_here") %>%
  html_text()
html r web-scraping rvest
1个回答
0
投票

右键单击网页时需要使用“检查”选项才能获取正确的节点。然后你需要找到包含你需要的信息的节点。

有多个选项,但我已使用标签和类来获取正确的值。

library(rvest)
library(dplyr)
website <- "https://www.imdb.com/search/title/?sort=user_rating,desc&groups=top_250"

page <- read_html(website)
movie_titles <- page %>%
  html_nodes("a h3.ipc-title__text") %>%
  html_text() 

movie_titles 
© www.soinside.com 2019 - 2024. All rights reserved.