数据管道 - 从反倾销程序的API响应大文件到AWS然后用最终的目的地是本地的SQL Server上

问题描述 投票:0回答:1

我是新来构建数据管道,其中在云计算倾销文件是在数据流中的一个或多个步骤。我们的目标是从存储在云中的各种API的数据大,原套则只有拉什么,我们需要(这些原始数据的摘要),并存储在我们的本地的SQL Server进行报告和分析。我们希望这样做最容易的,合理的和稳健的方式。我们选择了AWS作为我们的云服务提供商,但由于我们在开始阶段是不依附于任何特定的架构/服务。因为我与云也没有AWS的专家,我想我会后我的想法对我们如何实现我们的目标,看看是否有人对我们的任何建议。这是否架构为我们的数据管道有意义吗?是否有任何替代服务或者我们应该考虑数据流?提前致谢。

1)收集来自多个源的数据(使用API​​)

2)转储从API的响应转换成S3桶

3)用胶水爬行来创建数据的中S3桶一个数据目录

4)使用雅典娜查询在S3中数据的概要

5)从雅典娜获得存储数据汇总查询在本地SQL服务器

注意:我们将使用Python整个数据管道编程(这似乎是一个良好的通话和易于不管AWS服务,我们利用作为boto3是从我所看到迄今相当真棒)。

sql-server amazon-web-services amazon-s3 data-pipeline
1个回答
1
投票

您可以使用胶水作业(pyspark)为#4,#5。您可以使用胶水触发自动流

© www.soinside.com 2019 - 2024. All rights reserved.