我正在尝试通过AWS Glue作业连接到VPC(私有子网)中运行的服务和数据库。私有资源不应公开暴露(例如,移至公共子网或设置公共负载平衡器)。
[不幸的是,AWS Glue似乎不支持在用户定义的VPC内部运行。 AWS确实提供了一个称为Glue Database Connections的东西,当与Glue SDK一起使用时,它可以在指定的VPC内神奇地为Glue / Spark工作程序节点设置弹性网络接口。然后,网络接口将流量从Glue传输到VPC内部的特定数据库。但是,这需要特定数据库的位置和凭据,尚不清楚是否以及何时通过VPC隧道传输其他流量(例如,对服务的REST调用)。
是否有设置Glue-> VPC连接的可靠方法,它将通过VPC传输所有流量?
但是,这需要特定位置和凭据数据库,目前尚不清楚是否还有其他流量(例如REST)呼叫服务)通过VPC隧道传输。
我同意文档令人困惑,但是根据您链接的页面上的这一段,似乎所有流量确实都通过VPC进行了隧道传输,因为您必须具有NAT网关或VPC端点才能允许Glue访问外部内容为VPC配置了VPC访问权限后:
作业访问的所有JDBC数据存储都必须可用从VPC子网。要从VPC内访问Amazon S3,请使用VPC端点是必需的。如果您的工作需要访问两个VPC资源和公共互联网,VPC需要有一个网络地址VPC内部的转换(NAT)网关。