使用Airbyte从kaggle等网站/数据集平台获取数据

问题描述 投票:0回答:2

我是 Airbyte 的新手,我们的团队正在寻求将 Airbyte 用于不同的来源 - 从 http api(网络抓取网站)到包含 kaggle 等数据集的网站。我们正在寻求为这些来源创建自定义连接器。我正在寻找一些有关如何开始使用此资源的指南。

我已经使用下面的指南为示例 api 实现了自定义连接器。 https://docs.airbyte.com/connector-development/tutorials/cdk-tutorial-python-http/creating-the-source

我需要寻找其他方法

  1. 使用自定义连接器从网站获取数据(抓取到我的目的地)。
  2. 使用自定义连接器从 kaggle 或等效数据源获取数据。 请让我知道如何实现上述任务。
web-scraping etl orchestration data-transform data-ingestion
2个回答
2
投票

我编写了一个示例 Webflow (CMS) 源连接器,我们在 Airbyte 内部使用它来提取有关我们网站/博客/教程的数据。随附一篇相关博客文章,其中详细描述了连接器的实现,包括有关如何使用 Python CDKWebflow API 提取数据的详细信息。

涵盖的详细信息包括身份验证、请求数据和通过响应分页,以及如何动态创建流以及如何自动提取模式。

连接器和相关文章中提供的大部分信息应该可以概括为您的具体要求。

免责声明:我是 Airbyte 员工,也是链接文章的作者。


0
投票

除了 Alexander 的出色回答之外,您还可以使用 Apify 将网站内容抓取/解析为 Apify 数据集,然后使用 Airbyte 同步该数据集。

https://docs.airbyte.com/integrations/sources/apify-dataset

https://apify.com/

此外,Apify 数据集还可以用于其他应用程序,例如 Langchain:https://python.langchain.com/docs/integrations/document_loaders/apify_dataset

© www.soinside.com 2019 - 2024. All rights reserved.