到/自E3体系结构的S3管道建议的雪花

问题描述 投票:0回答:1

我正在尝试建立一个管道,该管道将数据从Snowflake发送到S3,然后再从S3发送回Snowflake(在Sagemaker上通过生产ML模型运行数据之后)。我是数据工程的新手,所以我很想听听社区中推荐的路径。管道要求如下:

  1. 我正在计划安排每月工作。我要在AWS还是Snowflake端指定?
  2. 对于最初的需求,我想从Snowflake查询12个月的数据。但是,对于以后的任何拉动,我只需要最后一个月,因为这应该是每月一次的管道。
  3. 所有月度数据提取都应像[query_01012020,query_01022020,query_01032020这样存储在自己的S3子文件夹中。
  4. 在ML模型在Sagemaker中成功对数据评分之后,应触发从S3返回指定的Snowflake表的数据加载。
  5. 我想在生产超时中监视ML模型的性能,以了解模型是否降低了其准确性(也许是一些类似校准的图形。)>
  6. 我希望在发生管道问题时实时获取任何错误通知。
  7. 我希望您能够为此目的在相关文档/教程上指导我。我真的很感谢指导。

非常感谢。

我正在尝试建立一个管道,该管道将数据从Snowflake发送到S3,然后再从S3发送回Snowflake(在Sagemaker上通过生产ML模型运行数据之后)。我是Data的新手...

amazon-web-services amazon-s3 etl pipeline snowflake-cloud-data-platform
1个回答
0
投票

雪花没有任何编排工具,例如Airflow或Oozie。因此,您需要使用或考虑使用某些Snowflake Partner Ecosystem工具,例如Mattilion等。或者,您可以使用Spark或python或任何其他可以使用JDBC / ODBC / Python连接雪花的编程语言来构建自己的端到端流连接器。

© www.soinside.com 2019 - 2024. All rights reserved.