我对 R 中的网页抓取还很陌生,而且对 HTML 代码不太熟悉。我正在尝试从 https://www.imdb.com/search/title/?sort=user_ rating,desc&groups=top_250 上的前 50 部 IMDB 电影中抓取数据。我知道使用 read_html 它给了我一个 XML 对象,然后我知道我需要使用 html_nodes 来提取电影标题。但因为我对 html 不太熟悉,所以我很难弄清楚这些节点的名称。有人能指出我正确的方向吗?
library(rvest)
library(dplyr)
website <- "https://www.imdb.com/search/title/?sort=user_rating,asc&groups=top_250"
page <- read_html(website)
movie_titles <- page %>%
html_nodes("node_name_here") %>%
html_text()
右键单击网页时需要使用“检查”选项才能获取正确的节点。然后你需要找到包含你需要的信息的节点。
有多个选项,但我已使用标签和类来获取正确的值。
library(rvest)
library(dplyr)
website <- "https://www.imdb.com/search/title/?sort=user_rating,desc&groups=top_250"
page <- read_html(website)
movie_titles <- page %>%
html_nodes("a h3.ipc-title__text") %>%
html_text()
movie_titles