Archival using Parquet-Dask or Snowflake [关闭]

问题描述 投票:0回答:0

我们需要创建一个数据存储来存储每天创建的多个数据文件(具有不同的列);商店应该以压缩格式保存它们,并且应该能够根据文件的相关字段进行查询。以下是我想到的方法

  1. 使用 parquet 格式(压缩)进行存储,使用 dask + pyarrow 进行查询——涉及将文件块分配给 dask worker 并根据用户提供的查询进行过滤
  2. 将文件转储到分布式云数据库(雪花)中的单独表中,并使用 SQL 进行查询

由于数据存储在 NAS 中,我预计 (1) 会有相当多的延迟;同时 (2) 似乎对 snowflake 有点矫枉过正

有什么想法吗?

snowflake-cloud-data-platform dask parquet software-design pyarrow
© www.soinside.com 2019 - 2024. All rights reserved.