正在读取HDFS小型分区?

问题描述 投票:0回答:1

我们的数据以日期作为分区列加载到hdfs中。问题是每个分区的小文件大小都小于50mb。因此,当我们从所有这些分区读取数据以将数据加载到下一张表时,需要花费数小时。我们如何解决这个问题?

java scala apache-spark cloudera-cdh spark2.4.4
1个回答
1
投票

我建议您结束一天的工作以合并/合并并制作一个很大的文件,该文件的大小要大得多,以便在从Spark读取之前在Spark中进行处理。

进一步阅读cloudera博客/文档解决这些问题Partition Management in Hadoop讨论了解决这些问题的几种技术,例如

    1. 合并所选表上的分区
    1. 存档冷数据
    1. 删除分区

选择cloudera博客中讨论的一种技术来满足您的需求。希望这会有所帮助!

© www.soinside.com 2019 - 2024. All rights reserved.