我想使用 Dataproc Spark 在 BigQuery 上运行 2 个每分钟执行一次的 SQL 文件,然后将结果写入 pub/sub。 我不确定是否可以同时使用这两种技术。 有谁已经在 GCP 上使用过带有 Pub/Sub 的 Dataproc 的人向我确认是否可能..
创建集群后,您可以使用BigQuery 连接器与 Spark 在 BigQuery 上执行 SQL 查询。带有 Apache Spark 的 spark-bigquery-connector 可以从 BigQuery 读取数据或向 BigQuery 写入数据。
创建一个
Pub/Sub Lite topic
将结果写入 Pub/Sub。可以使用“使用 Apache Spark 编写 Pub/Sub Lite 消息”。这可以使用 PySpark
中的 Dataproc Spark cluster
读取和写入消息到
Pub/Sub Lite。
确保具有与 BigQuery 和 Pub/Sub 交互所需的依赖项。请记住,您需要确保正确的身份验证和授权才能从 Spark 作业访问 BigQuery 和 Pub/Sub 资源。