Google Cloud 数据目录 - 产品和灵活性

问题描述 投票:0回答:1

计划构建一个具有计算能力的数据平台,如 Google Cloud Dataproc,将数据存储在增量表(Deltalake)中。

目前正在探索 GCP 堆栈中可用的数据目录以及开源 Hive 元存储,并想澄清以下问题:

  • Google Cloud Data Catalog 和 Dataproc Metastore (https://cloud.google.com/dataproc-metastore/docs) 之间有什么区别?来自AWS世界,GCP中的AWS Glue数据目录相当于什么?
  • 如果我们将应用程序从 GCP 迁移到其他 Spark 平台(例如:Databricks 和任何其他平台),我们可以移植/重用已创建的 GCP 数据目录/dataproc 元存储吗?
  • 数据目录/dataproc 元存储元数据存储在哪里?这是 GCS 还是其他存储?
  • 根据文档 (https://cloud.google.com/data-catalog/docs/concepts/overview),Google 数据目录会自动对 GCS、Bigquery、Pub/Sub 中的数据进行编目。 Data Catalog/dataproc Metastore 是否会自动捕获 Google 平台上增量表的元数据?
google-cloud-platform google-cloud-dataproc hive-metastore google-data-catalog
1个回答
0
投票

目录和 Dataproc 元存储之间的区别:

如果我们将应用程序从 GCP 迁移到其他 Spark 平台(例如:Databricks 和任何其他平台),我们可以移植/重用已创建的 GCP 数据目录/dataproc 元存储吗?

  • 您应该能够理想地使用 Dataproc 元存储

数据目录/dataproc 元存储元数据存储在哪里?这是 GCS 还是其他存储?

  • 两者都是 Google 专有的本机服务 - 您需要从 DPMS / Google 云目录导出元数据。

数据目录/dataproc元存储是否会自动捕获Google平台上增量表的元数据?

  • 没有
© www.soinside.com 2019 - 2024. All rights reserved.