rvest不适合这种抓取功能

Question

我正在尝试使用R来抓取这个网页的标题内容，但rvest并不是一个很好的工具。

我的代码：

url <-"https://letterboxd.com/crew/list/most-fans-on-letterboxd-with-pronoun-she/"

title <- read_html(url) %>% 
  html_nodes("span .frame-title") %>% # selector 
  html_text()

哪个应该给我与给定节点相关的标题（使用例子：电影Her（2013））...

<span class="frame-title" data-reactid=".c.3.1">Her (2013)</span>

...而是每次和每个插槽都输出空白（“”）。

我正在考虑RCurl包，但我不知道它是否真的有助于我提取节点的情况。我想在这个部门获得一些帮助，以获取该网页“框架标题”下的标题。任何帮助将不胜感激。

Answer 1

该网站的页面源代码与您发布的内容不同。以下应该解决它：

read_html(url) %>% 
    html_nodes("img") %>% 
    html_attr("alt")

rvest不适合这种抓取功能

问题描述投票：0回答：1

1个回答

最新问题

rvest不适合这种抓取功能

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1