我想使用 R 或 bash 脚本(Windows 上的“curl”)来废弃网页。
但是,下载的文件不包含与浏览器上看到的相同信息。似乎有一些隐藏的(至少对我来说)Java 脚本或类似或重定向发生,而没有更改浏览器中显示的 URL。
这是一个示例页面。例如,我想提取“B2Share 下载链接”信息的链接信息。
是否可以使用
rvest
或 curl
等提取此类信息?
网站 https://dip.lter-europe.net/ 提供了 API 以编程方式访问其数据。这样你会得到比抓取网站更好的结果。
要获取示例中文件的 URL,您可以在 R 中执行此操作:
library(jsonlite)
file_urls <-
fromJSON("https://dip.lter-europe.net/geonetwork/srv/api/records/6208/related?type=onlines")