我尝试使用R编程的R vest包从下面的链接中抓取网页。
我刮的链接是http://dk.farnell.com/c/office-computer-networking-products/prl/results
我的代码是:
library("xml2")
library("rvest")
url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results")
tbls_ls <- url %>%
html_nodes("table") %>%
html_table(fill = TRUE)%>%
gsub("^\\s\\n\\t+|\\s+$n+$t+$", "", .)
View(tbls_ls)
我的要求是我想从结果中删除\\n,\\t
。我想分页来刮掉多个页面,以便我可以用分页来抓取这个网页。
我对这些问题很感兴趣,所以我会尽力帮助你。预先警告,我不是这种东西的专家(或任何接近它的东西)。无论如何,我认为应该有点像这样......
library(rvest)
library(rvest)
library(tidyverse)
urls <- read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results/")
pag <- 1:5
read_urls <- paste0(urls, pag)
read_urls %>%
map(read_html) -> p
现在,我没有在数据集中看到任何'\\ n'或'\\ t'模式。然而,如果你想寻找一个特定的字符串,你可以这样做。
library(stringr)
str_which(urls, "[your]string_here")
以下链接非常有用!
http://dept.stat.lsa.umich.edu/~jerrick/courses/stat701/notes/webscrape.html