Spark 2.3.1结构化流输入速率

问题描述 投票:0回答:1

我想知道是否有办法在Spark Structured流中指定小批量的大小。这不是仅仅陈述小批量间隔(触发器),我想说明每个间隔的小批量(DataFrame)中可以有多少行。有没有办法做到这一点 ?

除了这样做的一般能力之外,我特别需要在测试场景中应用它,我有一个MemoryStream。我希望Spark能够从MemoryStream中消耗一定数量的数据,而不是一次性地获取所有数据,以实际看到整个应用程序的行为方式。我的理解是在启动作业之前需要填充MemoryStream数据结构。因此,我如何才能看到迷你批处理行为,是否能够在我给出的时间间隔内摄取MemoryStream的全部内容?

EDIT1

在Kafka Integration中,我发现了以下内容:

maxOffsetsPerTrigger:每个触发间隔处理的最大偏移量的速率限制。指定的偏移总数将按比例分配到不同卷的topicPartition。

但这仅适用于KAFKA整合。我也见过

maxFilesPerTrigger:每个触发器中要考虑的最大新文件数

所以似乎每个源类型都定义了一些东西。因此,有没有办法控制MEMORYSTREAM [ROW]的数据消耗方式?

scala spark-streaming
1个回答
0
投票

寻找下面的人他们可以解决你的问题:

 1.spark.streaming.backpressure.initialRate 
 2.spark.streaming.backpressure.enabled
© www.soinside.com 2019 - 2024. All rights reserved.