寻找一种使用 HDFS 和 MapReduce 或 Spark 存储和处理原始 NetCDF 文件(科学数据)的方法?

问题描述 投票:0回答:0

我实际上正在从事一个空间大数据项目(NetCDF 文件),我想将这些数据(netcdf 文件)存储在 hdfs 上,并使用 mapreduce 或 spark 对其进行处理,以便用户发送查询 sash 作为 AVG,vraibles 的维度平均值.

所以我在两种解决方案之间犹豫不决:

  1. 将 netcdf 文件转换为 csv 或 parquet,然后轻松使用 hadoop 但是,根据我的阅读,这将占用大量空间和处理时间

  2. 将原始 netcdf 文件存储在 Hdfs 上,但在这种情况下我没有找到通过 mapreduce 或 spark 从 hdfs 查询数据的方法?

有人可以帮我吗?

对于第二个解决方案,空间 Hadoop 可以帮助我吗?

apache-spark hadoop hive bigdata pipeline
© www.soinside.com 2019 - 2024. All rights reserved.