网站的抓取版本与浏览器版本不同

Question

我想使用 R 或 bash 脚本（Windows 上的“curl”）来废弃网页。

但是，下载的文件不包含与浏览器上看到的相同信息。似乎有一些隐藏的（至少对我来说）Java 脚本或类似或重定向发生，而没有更改浏览器中显示的 URL。

这是一个示例页面。例如，我想提取“B2Share 下载链接”信息的链接信息。

是否可以使用

rvest

或

curl

等提取此类信息？

Answer 1

网站 https://dip.lter-europe.net/ 提供了 API 以编程方式访问其数据。这样你会得到比抓取网站更好的结果。

要获取示例中文件的 URL，您可以在 R 中执行此操作：

library(jsonlite)

file_urls <- 
  fromJSON("https://dip.lter-europe.net/geonetwork/srv/api/records/6208/related?type=onlines")