用rvest选择特定的样式

问题描述 投票:1回答:1

是否有可能只使用rvest刮掉具有特定样式的文本?

示例HTML:

<p>Lorem ipsum <span style="font-size: 15px">dolor</span> sit amet, <span style="font-size: 15px">consetetur</span> sadipscing <span style="font-weight: 400">elitr</span>, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam.</p>

我想用font-size: 15px仅删除文本,而不是其他<span>标签中的文本。

我尝试过的一个解决方法是:

html %>% 
  html_nodes('span') %>% 
  str_subset('font-size: 15px')

但是,在html_text之后不可能使用str_subset,因为它将html转换为字符串。除了手动删除剩余标签之外还有其他任何想法吗?

r web-scraping rvest
1个回答
0
投票

查看rvest包中的html_attrhtml_attrs函数。

此示例将查找具有您要查找的属性的节点:

library(rvest)

html<-read_html('<p>Lorem ipsum <span style="font-size: 15px">dolor</span> sit amet, <span style="font-size: 15px">consetetur</span> sadipscing <span style="font-weight: 400">elitr</span>, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam.</p>')

nodes<-html %>%   html_nodes('span') 
nodes[html_attr(nodes, "style")=="font-size: 15px"]

#{xml_nodeset (2)}
#[1] <span style="font-size: 15px">dolor</span>
#[2] <span style="font-size: 15px">consetetur</span>
© www.soinside.com 2019 - 2024. All rights reserved.