我实际上正在从事一个空间大数据项目(NetCDF 文件),我想将这些数据(netcdf 文件)存储在 hdfs 上,并使用 mapreduce 或 spark 对其进行处理,以便用户发送查询 sash 作为 AVG,vraibles 的维度平均值.
所以我在两种解决方案之间犹豫不决:
将 netcdf 文件转换为 csv 或 parquet,然后轻松使用 hadoop 但是,根据我的阅读,这将占用大量空间和处理时间
将原始 netcdf 文件存储在 Hdfs 上,但在这种情况下我没有找到通过 mapreduce 或 spark 从 hdfs 查询数据的方法?
有人可以帮我吗?
对于第二个解决方案,空间 Hadoop 可以帮助我吗?