我一直在用这个代码搜刮IMDB页面。
library(rvest)
url <- 'https://www.imdb.com/chart/top/'
webpage <- url %>% read_html()
title <- webpage %>% html_nodes('td.titleColumn a') %>% html_text()
title
但我得到的结果是西班牙语。当我看到网页上的列表是英文的。任何帮助将是非常感激的。
你可以试试下面的代码。
library(httr)
library(jsonlite)
library(rvest)
library(tidyverse)
headers = c(
'User-Agent' = 'Mozilla/5.0',
'Accept' = 'text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01',
'X-Requested-With' = 'XMLHttpRequest',
'Accept-Language' = 'en-US,en;q=0.5'
)
r <- httr::GET(url = 'https://www.imdb.com/chart/top/', httr::add_headers(.headers=headers))
read_html(r) %>% html_nodes('td.titleColumn a') %>% html_text()
希望这个答案能帮到你。