计划构建一个具有计算能力的数据平台,如 Google Cloud Dataproc,将数据存储在增量表(Deltalake)中。
目前正在探索 GCP 堆栈中可用的数据目录以及开源 Hive 元存储,并想澄清以下问题:
目录和 Dataproc 元存储之间的区别:
如果我们将应用程序从 GCP 迁移到其他 Spark 平台(例如:Databricks 和任何其他平台),我们可以移植/重用已创建的 GCP 数据目录/dataproc 元存储吗?
数据目录/dataproc 元存储元数据存储在哪里?这是 GCS 还是其他存储?
数据目录/dataproc元存储是否会自动捕获Google平台上增量表的元数据?