将数据写入数据湖gen2以消耗电量

如果我们有一些来自营销平台的每小时数据以及行为数据（将其视为 CSV 文件中的事件或行）。

我想将其放入第二代数据湖中，目的是让 Power Bi 开发人员能够轻松地消耗数据并使用它。

作为开发者，我可以做些什么来使这些数据针对 Power bi 用户更加优化？我应该按时间部分放置东西吗？我是否应该删除原始 CSV 文件并希望这不是 powerbi 的性能问题？

我问是因为我看到了电力平台数据流正在生成的文件，并且想知道我是否应该做类似的事情？也许 c# 已经有工具/sdk 可以做到这一点。在实施某些任务之前，我应该在这项任务中考虑什么？

0
投票

我必须说这个问题非常笼统，在不查看数据的情况下很难提供指导。既然你谈论的是营销数据，我假设它是巨大的，我必须说 PBI 确实可以很好地处理巨大的数据。无论如何，问题是我们如何将数据保存在 ADLA gen 2 中。我建议你可以一起去

集装箱\年\月\日\小时例如 *2020 *

如果可以的话我可以去

集装箱\年\月\日\小时\毫米例如 2020 9

这种方法将使 csv 文件更小，我认为这总是更好。

0
投票

有点晚了，问题可能会得到解决，但无论如何，以防万一其他人来找...... 您问“在执行某些操作之前，我应该在这项任务中考虑什么？”

如果您不打算提供带有数据块或突触的策划层，那么我要问的主要问题是是否将导入数据或是否将使用直接查询。

导入后 CSV 表现良好，但您可以通过删除任何不需要的列等进行优化。PowerBI 在压缩和处理大型数据文件方面做得非常好。它不太擅长的一个领域是导入大量较小的 csv 文件。最好将它们合并到单个较大的文件中。导入时，CSV 的性能比 Parquet 更好。

直接查询然后我会考虑将 CSV 转换为 Parquet，它的查询性能比 CSV 更好（老实说，甚至不确定 csv 上是否可以直接查询？？）但如果寻找直接查询，我会强烈考虑使用 Data Bricks 的管理层或 Synapse 来处理连接、聚合和反规范化。 Fabric 现在有一个新的直接查询可用，在某些情况下性能更好，带来了导入和直接查询的最佳性能，但当前的限制意味着它并不总是适用。

问题描述投票：0回答：2

2个回答

最新问题

将数据写入数据湖gen2以消耗电量

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2