Apace Drill读取gz和快速的性能

问题描述投票：1回答：1

我正在使用Apache Drill 1.8。为了测试海豚，我用.csv制作了两个实木复合地板文件。 CSV大约为4GB，使用gz编解码器为120MB的拼花地板，以及带有快速编解码器的大约250GB的拼花地板。

由于Spark使用快照作为默认编解码器，因此快照在性能上应该更快，因为我遇到了一个问题。

这是我在Hadoop上具有块大小等的文件：

我尝试在Drill（默认情况下具有快照式编解码器）中查询时，快照式编解码器上的镶木文件的时间约为18秒。我尝试使用相同的查询在gz编解码器上的Drill木地板文件中进行查询的时间大约是8秒。

（这是一个简单的查询，选择了5列，按一列排序，并限制为一列）

我现在有点困惑。使用I / O难道不是效率更高吗？我是在某个地方犯错误还是这是如何起作用的。如果有人可以向我解释，我将不胜感激，因为我在网上找不到任何有用的东西。再次谢谢你！

hadoop

apache-spark

hdfs

parquet

apache-drill

1个回答

0
投票

至少对于HDFS，您希望实木复合地板文件的大小（行组）等于块大小。您可能有问题，因为块大小为128 MB，文件大小为250 MB。