将数据写入数据湖gen2以消耗电量

问题描述 投票:0回答:2

如果我们有一些来自营销平台的每小时数据以及行为数据(将其视为 CSV 文件中的事件或行)。

我想将其放入第二代数据湖中,目的是让 Power Bi 开发人员能够轻松地消耗数据并使用它。

作为开发者,我可以做些什么来使这些数据针对 Power bi 用户更加优化?我应该按时间部分放置东西吗?我是否应该删除原始 CSV 文件并希望这不是 powerbi 的性能问题?

我问是因为我看到了电力平台数据流正在生成的文件,并且想知道我是否应该做类似的事情?也许 c# 已经有工具/sdk 可以做到这一点。在实施某些任务之前,我应该在这项任务中考虑什么?

azure powerbi azure-data-lake
2个回答
0
投票

我必须说这个问题非常笼统,在不查看数据的情况下很难提供指导。既然你谈论的是营销数据,我假设它是巨大的,我必须说 PBI 确实可以很好地处理巨大的数据。无论如何,问题是我们如何将数据保存在 ADLA gen 2 中。我建议你可以一起去

集装箱\年\月\日\小时 例如 *2020 *

如果可以的话我可以去

集装箱\年\月\日\小时\毫米 例如 2020 9

这种方法将使 csv 文件更小,我认为这总是更好。


0
投票

有点晚了,问题可能会得到解决,但无论如何,以防万一其他人来找...... 您问“在执行某些操作之前,我应该在这项任务中考虑什么?”

如果您不打算提供带有数据块或突触的策划层,那么我要问的主要问题是是否将导入数据或是否将使用直接查询。

导入后 CSV 表现良好,但您可以通过删除任何不需要的列等进行优化。PowerBI 在压缩和处理大型数据文件方面做得非常好。它不太擅长的一个领域是导入大量较小的 csv 文件。最好将它们合并到单个较大的文件中。导入时,CSV 的性能比 Parquet 更好。

直接查询然后我会考虑将 CSV 转换为 Parquet,它的查询性能比 CSV 更好(老实说,甚至不确定 csv 上是否可以直接查询??)但如果寻找直接查询,我会强烈考虑使用 Data Bricks 的管理层或 Synapse 来处理连接、聚合和反规范化。 Fabric 现在有一个新的直接查询可用,在某些情况下性能更好,带来了导入和直接查询的最佳性能,但当前的限制意味着它并不总是适用。

© www.soinside.com 2019 - 2024. All rights reserved.