如何使数据流自动缩放更快?

问题描述 投票:0回答:2

我在数据流上有一个简单的并行光束Python工作。它使用 1 个 cpu 花费近 20 分钟,然后扩展到数百个,并在另外 20 分钟内完成。有没有办法让它在更短的时间内自动扩展?

google-cloud-dataflow
2个回答
0
投票

如果您知道该作业需要启动的工人,您可以指定

num_workers 
。该文档在这里:https://cloud.google.com/dataflow/docs/reference/pipeline-options#resource_utilization


0
投票

理论上,Dataflow 水平自动缩放应该有效地处理该作业,因为它会自动确定运行该作业所需的工作人员数量。

数据流根据管道的并行性进行扩展。管道的并行度是对在任何给定时间最有效地处理数据所需的线程数量的估计。

Phyton Class AutoscalingAlgorithm 如果该值设置为 AUTOSCALING_ALGORITHM_BASIC,则提到相同的逻辑。

AUTOSCALING_ALGORITHM_BASIC (2):随着时间的推移增加工作人员数量以减少作业执行时间。

如果您对其性能不满意,那么您可以通过关闭自动缩放(

--autoscaling\_algorithm=NONE
)来探索手动方式,并像XQ Hu提到的那样设置您的工作人员数量。

© www.soinside.com 2019 - 2024. All rights reserved.