Apace Drill读取gz和快速的性能

问题描述 投票:1回答:1

我正在使用Apache Drill 1.8。为了测试海豚,我用.csv制作了两个实木复合地板文件。 CSV大约为4GB,使用gz编解码器为120MB的拼花地板,以及带有快速编解码器的大约250GB的拼花地板。

由于Spark使用快照作为默认编解码器,因此快照在性能上应该更快,因为我遇到了一个问题。

这是我在Hadoop上具有块大小等的文件:

  1. 使用活泼的编解码器:enter image description here

  2. 使用gz编解码器:enter image description here

我尝试在Drill(默认情况下具有快照式编解码器)中查询时,快照式编解码器上的镶木文件的时间约为18秒。我尝试使用相同的查询在gz编解码器上的Drill木地板文件中进行查询的时间大约是8秒。

(这是一个简单的查询,选择了5列,按一列排序,并限制为一列)

我现在有点困惑。使用I / O难道不是效率更高吗?我是在某个地方犯错误还是这是如何起作用的。如果有人可以向我解释,我将不胜感激,因为我在网上找不到任何有用的东西。再次谢谢你!

hadoop apache-spark hdfs parquet apache-drill
1个回答
0
投票
至少对于HDFS,您希望实木复合地板文件的大小(行组)等于块大小。您可能有问题,因为块大小为128 MB,文件大小为250 MB。
© www.soinside.com 2019 - 2024. All rights reserved.