我应该如何从每个租户架构的数据库中提取数据进行分析?

问题描述 投票:0回答:1

在我正在开发的应用程序中,我们有多个数据库服务器 (AWS RDS PostGres),这些服务器现在正在从共享数据库架构(所有租户都在一个数据库中)迁移到每个租户一个数据库模型。

之前,我们曾经运行一个简单的AWS DMS作业来复制数据库,剥离数据库中的PII并将Metabase(BI工具)指向复制的数据库进行推理。到目前为止,在新架构中,我得出的结论是,我可以使用 Spark 或 AWS Glue Crawlers 在表上运行发现,对 S3 运行 ETL 作业以将每个租户的数据库保存为 Parquet 文件,但是,因为我并不是真正的数据工程师,这之后的图很模糊。

我猜我可以在 Glue 的 ETL 步骤中删除 PII 数据,但我想保持原样,这样我就可以为客户提供一种通过将 Apache Superset 实例直接指向他们的帐户来查看其帐户分析的方法由 Clickhouse 等数据库加载的 Parquet 文件。

我不确定 PrestoDB 如何作为查询引擎工作,但我想探索如何在 EMR 上按需运行它来查询所有这些文件以进行内部分析(同时还使用像 Ranger 这样的授权模型来防止泄露客户数据),还允许客户在他们的分析工具或我们提供的 Superset 实例中查询自己的数据。

我很想听听一些关于这方面的想法,因为我不是数据工程师,这就是我在两周内所能收集到的全部内容。

database amazon-web-services analytics presto
1个回答
1
投票

您需要退后一步,弄清楚您要解决的问题是什么。您太了解如何解决未定义问题的机制。

我对您的回答是,您可能需要将这些单独的数据库放入数据仓库中,然后您可以将数据从多租户每数据库架构规范化回 1x 数据源,即。然后您可以在数据仓库、ai 上执行“分析”操作。

SELECT tenant_name, SUM(X) FROM Y GROUP BY tenant_name;

这样您就可以看到整个事情是如何发生的以及按租户划分的情况。

© www.soinside.com 2019 - 2024. All rights reserved.