Google Cloud 数据目录 - 产品和灵活性

问题描述投票：0回答：1

计划构建一个具有计算能力的数据平台，如 Google Cloud Dataproc，将数据存储在增量表（Deltalake）中。

目前正在探索 GCP 堆栈中可用的数据目录以及开源 Hive 元存储，并想澄清以下问题：

Google Cloud Data Catalog 和 Dataproc Metastore (https://cloud.google.com/dataproc-metastore/docs) 之间有什么区别？来自AWS世界，GCP中的AWS Glue数据目录相当于什么？
如果我们将应用程序从 GCP 迁移到其他 Spark 平台（例如：Databricks 和任何其他平台），我们可以移植/重用已创建的 GCP 数据目录/dataproc 元存储吗？
数据目录/dataproc 元存储元数据存储在哪里？这是 GCS 还是其他存储？
根据文档 (https://cloud.google.com/data-catalog/docs/concepts/overview)，Google 数据目录会自动对 GCS、Bigquery、Pub/Sub 中的数据进行编目。 Data Catalog/dataproc Metastore 是否会自动捕获 Google 平台上增量表的元数据？

google-cloud-platform google-cloud-dataproc hive-metastore google-data-catalog

1个回答

0
投票

目录和 Dataproc 元存储之间的区别：

Google 云目录允许用户发现、理解和管理分布在各种系统/来源的数据资产的元数据 - https://cloud.google.com/data-catalog/docs/concepts/overview
Dataproc 是一项完全托管且高度可扩展的服务，用于运行 Apache Hadoop、Apache Spark、Apache Flink、Presto 和 30 多个开源工具和框架 - https://cloud.google.com/dataproc/docs/concepts/overview

如果我们将应用程序从 GCP 迁移到其他 Spark 平台（例如：Databricks 和任何其他平台），我们可以移植/重用已创建的 GCP 数据目录/dataproc 元存储吗？

您应该能够理想地使用 Dataproc 元存储

数据目录/dataproc 元存储元数据存储在哪里？这是 GCS 还是其他存储？

两者都是 Google 专有的本机服务 - 您需要从 DPMS / Google 云目录导出元数据。

数据目录/dataproc元存储是否会自动捕获Google平台上增量表的元数据？

没有

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.