Google Dataplex 和 Data Catalog 中元数据的混淆

问题描述 投票:0回答:1

我在谷歌大查询(BQ)中有一个数据集和一个表。对于数据集,我可以添加描述,对于表,我可以添加描述和列策略标签来控制列级别访问(我忽略可以附加到任何 BQ 资源的“标签”和“标签”)。

接下来,在 Dataplex 中,我创建了一个湖泊和一个区域,然后将之前的 BQ 数据集附加到该区域。

然后我在Dataplex的“Discover”页面下的“Search”页面中搜索了BQ表。出现 2 个结果,其中一项“System”为“BIGQUERY”,一项“System”为“DATAPLEX”。当我选择这2个结果时,我发现以下几点:

  • System 为 BIGQUERY 的是指 BQ 表,而 Dataplex 是指为 Dataplex 区域中的表创建的实体。
  • 对于系统为 BIGQUERY 的系统,我可以添加概述、管理员并使用标签模板附加标签。此外,对于列,我可以附加标签并添加业务术语。对于系统为 Dataplex 的系统,我无法添加概述或管理员,但可以使用标签模板和属性附加标签。此外,对于列,我只能添加列属性。

我的理解是,System 作为 BIGQUERY 的条目是数据目录元数据(url 包含字符串 ...entryGroups/@bigquery/entries/...),而 System 作为 Dataplex 的条目是 Dataplex 条目。此外,对于同一个表,我可以使用数据目录和 Dataplex 条目添加不同的元数据。系统对此非常满意,来自 Data Catalog 的元数据不会显示在 Dataplex 条目中,反之亦然,并且来自两者的元数据不会显示在 BQ UI 中。

上述行为是否符合预期?似乎同一个表有 3 个元数据源,一个在 BQ 中,一个在 Data Catalog 中,一个在 Dataplex 条目中,所有这些都彼此独立(尽管 Data Catalog 和 Dataplex 元数据是 BQ 元数据的超集) .

google-cloud-platform google-bigquery google-data-catalog google-dataplex
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.