我正在尝试配置和部署真正是单线程的Cloud Dataflow作业,以避免在创建/更新数据存储区中的实体时出现并发问题。我当时的假设是,使用n1-standard-1机器可确保作业在单个计算机上的单个线程上运行,但是我变得很难学,事实并非如此。
我已经看过先前查询中提到的建议[Can I force a step in my dataflow pipeline to be single-threaded (and on a single machine)?
但是我想避免围绕此实现窗口化方法,并且想知道是否有一种更简单的方法来简单地配置作业以确保单线程行为。
任何建议或见解将不胜感激
我最近了解到,通过使用n1-standard-1的单个工作程序并另外使用以下exec_arg --numberOfWorkerHarnessThreads = 1可以保证单线程行为,因为这也将JVM线程数也限制为1。