R编程Web Scraping

问题描述 投票:1回答:1

我尝试使用R编程的R vest包从下面的链接中抓取网页。

我刮的链接是http://dk.farnell.com/c/office-computer-networking-products/prl/results

我的代码是:

library("xml2")

library("rvest")

url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results")

tbls_ls <- url %>%

html_nodes("table") %>%

html_table(fill = TRUE)%>%

gsub("^\\s\\n\\t+|\\s+$n+$t+$", "", .)

View(tbls_ls)

我的要求是我想从结果中删除\\n,\\t。我想分页来刮掉多个页面,以便我可以用分页来抓取这个网页。

r web-scraping
1个回答
0
投票

我对这些问题很感兴趣,所以我会尽力帮助你。预先警告,我不是这种东西的专家(或任何接近它的东西)。无论如何,我认为应该有点像这样......

library(rvest)
library(rvest)
library(tidyverse)

urls <- read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results/")
pag <- 1:5

read_urls <- paste0(urls, pag)
read_urls %>% 
  map(read_html) -> p

现在,我没有在数据集中看到任何'\\ n'或'\\ t'模式。然而,如果你想寻找一个特定的字符串,你可以这样做。

library(stringr)
str_which(urls, "[your]string_here")

以下链接非常有用!

http://dept.stat.lsa.umich.edu/~jerrick/courses/stat701/notes/webscrape.html

© www.soinside.com 2019 - 2024. All rights reserved.