R编程Web Scraping

Question

我尝试使用R编程的R vest包从下面的链接中抓取网页。

我刮的链接是http://dk.farnell.com/c/office-computer-networking-products/prl/results

我的代码是：

library("xml2")

library("rvest")

url<-read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results")

tbls_ls <- url %>%

html_nodes("table") %>%

html_table(fill = TRUE)%>%

gsub("^\\s\\n\\t+|\\s+$n+$t+$", "", .)

View(tbls_ls)

我的要求是我想从结果中删除\\n,\\t。我想分页来刮掉多个页面，以便我可以用分页来抓取这个网页。

Answer 1

我对这些问题很感兴趣，所以我会尽力帮助你。预先警告，我不是这种东西的专家（或任何接近它的东西）。无论如何，我认为应该有点像这样......

library(rvest)
library(rvest)
library(tidyverse)

urls <- read_html("http://dk.farnell.com/c/office-computer-networking-products/prl/results/")
pag <- 1:5

read_urls <- paste0(urls, pag)
read_urls %>% 
  map(read_html) -> p

现在，我没有在数据集中看到任何'\\ n'或'\\ t'模式。然而，如果你想寻找一个特定的字符串，你可以这样做。

library(stringr)
str_which(urls, "[your]string_here")

以下链接非常有用！

http://dept.stat.lsa.umich.edu/~jerrick/courses/stat701/notes/webscrape.html

R编程Web Scraping

问题描述投票：1回答：1

1个回答

最新问题

R编程Web Scraping

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1