用于调度网络抓取工具的解决方案架构(最好调度 Colab 笔记本)

问题描述 投票:0回答:1

我正在寻找有关按计划执行抓取脚本的指导。大多数在线指南建议在各种云提供商上使用虚拟机实例或无服务器功能。然而,我的问题与存储有关。目前,我抓取的所有数据都保存在 Google Drive 上的 CSV 文件中。我的目标是每天运行一次抓取脚本来检索新信息并将其附加到现有的 CSV 中,而不需要下载和重新上传(文件太大)。我正在寻找一种类似于 Google Colab 如何促进访问 Google Drive 文件的解决方案。本质上,我正在寻找一种基于云的解决方案,该解决方案允许安排脚本执行,并存储输出并轻松共享,最好不要离开 Google Drive。也许有一种方法可以安排 Colab 笔记本的执行? 谢谢。

web-scraping google-colaboratory scheduling
1个回答
0
投票

CSV 通常用于导入/导出数据,并不适合存储记录或数据。

GCP云跑

最好的方法是定期加载网页并使用标准 JavaScript 来查询您想要的数据。

Firestore

将所需数据存储在 Firestore 中。

就 Cloud Run 而言,原生 NodeJS(HTTP 模块)可以获取网页,而像 JSDOM 这样的库可以轻松地让您获取所需的任何 HTML 元素。 Node.js 可以运行 Node.js Google 客户端库来更新您的数据存储(FireStore)。

© www.soinside.com 2019 - 2024. All rights reserved.