如何在Apache Spark Thrift服务器中设置incrementalCollect的行批量大小？

Question

我在 Thrift 服务器 (Spark 3.1.2) 中启用了

spark.sql.thriftServer.incrementalCollect

以防止 OutOfMemory 异常。这工作得很好，但我的查询现在真的很慢。我检查了日志，发现 Thrift 正在批量查询 10.000 行。

INFO SparkExecuteStatementOperation: Returning result set with 10000 rows from offsets [1260000, 1270000) with 169312d3-1dea-4069-94ba-ec73ac8bef80

我的硬件能够处理 10 倍到 50 倍的数据。这个问题和这个文档页面建议设置

spark.sql.inMemoryColumnarStorage.batchSize

，但这不起作用。

可以配置该值吗？

Answer 1

spark.sql.inMemoryColumnarStorage.batchSize 用于缓存，而不是用于每次增量加载的 fetchSize。阅读开源存储库中的 Spark Thrift 代码以检查确切的用法。