数据管道 - 从反倾销程序的API响应大文件到AWS然后用最终的目的地是本地的SQL Server上

问题描述投票：0回答：1

我是新来构建数据管道，其中在云计算倾销文件是在数据流中的一个或多个步骤。我们的目标是从存储在云中的各种API的数据大，原套则只有拉什么，我们需要（这些原始数据的摘要），并存储在我们的本地的SQL Server进行报告和分析。我们希望这样做最容易的，合理的和稳健的方式。我们选择了AWS作为我们的云服务提供商，但由于我们在开始阶段是不依附于任何特定的架构/服务。因为我与云也没有AWS的专家，我想我会后我的想法对我们如何实现我们的目标，看看是否有人对我们的任何建议。这是否架构为我们的数据管道有意义吗？是否有任何替代服务或者我们应该考虑数据流？提前致谢。

1）收集来自多个源的数据（使用API）

2）转储从API的响应转换成S3桶

3）用胶水爬行来创建数据的中S3桶一个数据目录

4）使用雅典娜查询在S3中数据的概要

5）从雅典娜获得存储数据汇总查询在本地SQL服务器

注意：我们将使用Python整个数据管道编程（这似乎是一个良好的通话和易于不管AWS服务，我们利用作为boto3是从我所看到迄今相当真棒）。

sql-server

amazon-web-services

amazon-s3

data-pipeline

1个回答

1
投票

您可以使用胶水作业（pyspark）为＃4，＃5。您可以使用胶水触发自动流

数据管道 - 从反倾销程序的API响应大文件到AWS然后用最终的目的地是本地的SQL Server上

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1