Spark 2.3.1结构化流输入速率

Question

我想知道是否有办法在Spark Structured流中指定小批量的大小。这不是仅仅陈述小批量间隔（触发器），我想说明每个间隔的小批量（DataFrame）中可以有多少行。有没有办法做到这一点？

除了这样做的一般能力之外，我特别需要在测试场景中应用它，我有一个MemoryStream。我希望Spark能够从MemoryStream中消耗一定数量的数据，而不是一次性地获取所有数据，以实际看到整个应用程序的行为方式。我的理解是在启动作业之前需要填充MemoryStream数据结构。因此，我如何才能看到迷你批处理行为，是否能够在我给出的时间间隔内摄取MemoryStream的全部内容？

EDIT1

在Kafka Integration中，我发现了以下内容：

maxOffsetsPerTrigger：每个触发间隔处理的最大偏移量的速率限制。指定的偏移总数将按比例分配到不同卷的topicPartition。

但这仅适用于KAFKA整合。我也见过

maxFilesPerTrigger：每个触发器中要考虑的最大新文件数

所以似乎每个源类型都定义了一些东西。因此，有没有办法控制MEMORYSTREAM [ROW]的数据消耗方式？

Answer 1

寻找下面的人他们可以解决你的问题：

 1.spark.streaming.backpressure.initialRate 
 2.spark.streaming.backpressure.enabled

Spark 2.3.1结构化流输入速率

问题描述投票：0回答：1

1个回答

最新问题

Spark 2.3.1结构化流输入速率

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1