网站的抓取版本与浏览器版本不同

问题描述 投票:0回答:1

我想使用 R 或 bash 脚本(Windows 上的“curl”)来废弃网页。

但是,下载的文件不包含与浏览器上看到的相同信息。似乎有一些隐藏的(至少对我来说)Java 脚本或类似或重定向发生,而没有更改浏览器中显示的 URL。

这是一个示例页面。例如,我想提取“B2Share 下载链接”信息的链接信息。

是否可以使用

rvest
curl
等提取此类信息?

r web-scraping curl rvest rselenium
1个回答
0
投票

网站 https://dip.lter-europe.net/ 提供了 API 以编程方式访问其数据。这样你会得到比抓取网站更好的结果。

要获取示例中文件的 URL,您可以在 R 中执行此操作:

library(jsonlite)

file_urls <- 
  fromJSON("https://dip.lter-europe.net/geonetwork/srv/api/records/6208/related?type=onlines") 
© www.soinside.com 2019 - 2024. All rights reserved.