Dataflow 目前支持自定义容器,如下页所示, https://cloud.google.com/dataflow/docs/guides/using-custom-containers
我想知道我们是否可以使用我们自己的 VM 映像来启动 worker VM 实例,目前数据流服务帐户从“dataflow-service-producer-prod”项目中提取计算引擎的映像。
但是我们有限制,只能使用我们组织内准备的图像以及我们需要的必要补丁。
Stackoverflow 对此提出了一个类似的问题,但答案并未解决为工作实例使用自定义 VM 的问题,大多数答案与 apache beam 的自定义容器有关,
Google Cloud Dataflow 工作人员的自定义 VM 映像
非常感谢任何帮助。
我从谷歌云社区得到了答案
是的,Dataflow 支持使用自定义容器。然而,DF确实 不支持对 worker 实例使用自定义 VM 映像 计算引擎
对 dataproc 的类似说明
在 Dataproc 方面,您确实可以创建自定义图像。过程 涉及使用 generate_custom_image.py Python 程序,该程序 使用指定的创建临时 Compute Engine VM 实例 Dataproc 基础映像。该程序然后运行自定义脚本 在 VM 实例中安装自定义包和/或更新 配置。自定义脚本完成其任务后, 程序关闭虚拟机实例并创建 Dataproc 自定义映像 来自 VM 实例的磁盘。
但是Dataflow目前不支持使用自定义VM 图片。虽然 Dataflow 确实支持自定义容器映像,但这些是 仅适用于在工作虚拟机实例中运行的 Docker 实例, 而不是工作虚拟机实例本身。