我发现在进行Parquet扫描时Impala中有字典过滤器。评论说该列是100%字典编码可以字典过滤。什么样的列可以进行字典编码?有没有字典过滤器的例子?非常感谢。
每行组的字典大小有一个上限,impala <2.9为40000。因此它与编码列的基数有关。基本上,如果一个行组中有许多不同的字符串,则字典编码将不是100%。你可以进一步参考这个documentation