我正在使用Apache Drill 1.8。为了测试海豚,我用.csv制作了两个实木复合地板文件。 CSV大约为4GB,使用gz编解码器为120MB的拼花地板,以及带有快速编解码器的大约250GB的拼花地板。
由于Spark使用快照作为默认编解码器,因此快照在性能上应该更快,因为我遇到了一个问题。
这是我在Hadoop上具有块大小等的文件:
我尝试在Drill(默认情况下具有快照式编解码器)中查询时,快照式编解码器上的镶木文件的时间约为18秒。我尝试使用相同的查询在gz编解码器上的Drill木地板文件中进行查询的时间大约是8秒。
(这是一个简单的查询,选择了5列,按一列排序,并限制为一列)
我现在有点困惑。使用I / O难道不是效率更高吗?我是在某个地方犯错误还是这是如何起作用的。如果有人可以向我解释,我将不胜感激,因为我在网上找不到任何有用的东西。再次谢谢你!