我正在从Kafka源中读取流数据,但是从kafka中读取所有数据都是在一个微型批次中读取。
spark.readStream.format("kafka").option("kafka.bootstrap.servers",bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load()
哪个参数或选项用于在火花结构化流的一个微批量中设置最大批量大小?
使用maxOffsetsPerTrigger
限制消息数。
根据spark doc“ maxOffsetsPerTrigger-每个触发间隔处理的最大偏移数的速率限制。指定的偏移总数将按比例分配给不同卷的topicPartitions。”