如何在一个微批量的Spark结构化流中设置批量大小

问题描述 投票:0回答:1

我正在从Kafka源中读取流数据,但是从kafka中读取所有数据都是在一个微型批次中读取。

spark.readStream.format("kafka").option("kafka.bootstrap.servers",bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load()

哪个参数或选项用于在火花结构化流的一个微批量中设置最大批量大小?

apache-spark pyspark apache-kafka spark-streaming
1个回答
0
投票

使用maxOffsetsPerTrigger限制消息数。

根据spark doc“ maxOffsetsPerTrigger-每个触发间隔处理的最大偏移数的速率限制。指定的偏移总数将按比例分配给不同卷的topicPartitions。”

© www.soinside.com 2019 - 2024. All rights reserved.