在GCP上使用python numpy和pandas部署小批量作业

问题描述 投票:0回答:1

我有一个日常的小型计算工作,该工作从BigQuery导入数据,使用Python数值计算库(pandas,numpy)进行处理,然后将结果写入外部表(另一个项目的Firestore或MySQL)

在GCP上部署它的推荐方法是什么?

我们的开发人员建议我们不要创建仅用于执行批处理作业的虚拟机。他们希望自己不要管理VM基础结构,并且应该有支持批处理作业的服务。他们坚持认为我使用Dataflow。但是我认为Dataflow的分布式特性有点过大。

非常感谢,

python pandas google-cloud-platform batch-processing google-cloud-dataflow
1个回答
0
投票
Cloud Dataflow完全满足您的需求,因此比VM更易于管理,扩展和构建。事先只问自己几个问题,如果不适用,请使用Dataflow:

    是否要限制为特定的云提供商(在这种情况下为GCP)
  • 在此项目中,是否使用了其他云服务,或者它们仅使用云中的基础结构(保持一致性)。我们还希望项目朝哪个方向发展? (使用自定义或云解决方案)
  • 我是否想要对该批处理软件处理工具进行绝对控制?如果是这样,您可能无法通过Dataflow获得它
  • 其他考虑因素,例如成本,部署时间,启动时间
  • 如果所有答案都倾向于云服务,请使用它。
  • © www.soinside.com 2019 - 2024. All rights reserved.