数据存储设计建议

问题描述 投票:0回答:0

我们需要创建一个数据存储来存储每天创建的多个数据文件(具有不同的列);商店应该以压缩格式保存它们,并且应该能够根据文件的相关字段进行查询。以下是我想到的方法

  1. 使用 parquet 格式(压缩)进行存储,使用 dask + pyarrow 进行查询
  2. 将文件转储到分布式云数据库(雪花)中的单独表中,并使用 SQL 进行查询

但无法决定哪个更有效率;使用雪花的方法会矫枉过正吗?镶木地板的方法会产生很多延迟吗?

有什么想法吗?

snowflake-cloud-data-platform dask parquet archive pyarrow
© www.soinside.com 2019 - 2024. All rights reserved.