火花水印需要太多时间来进行分组操作?

问题描述 投票:0回答:1

我尝试执行一些groupby操作时会抛出火花结构化的流,它提供了预期的输出,但是我的问题是它花费了超过10分钟的时间,但是我的水印时间仅为“ 30秒”,低于我尝试过的代码]]

Dataset<Row> windowedCounts = lines
    .withWatermark("timestamp", "30 seconds")
    .groupBy("value")
    .count();

而且我尝试了如下所述的窗口操作

Dataset<Row>windowedCounts = lines
    .withWatermark("timestamp", "30 seconds")
    .groupBy(
        functions.window(lines.col("timestamp"), "30 seconds", "10 seconds"),
        lines.col("value"))
    .count();

[我在UI中分析了那里有200个任务,我不知道为什么要为此计算创建200个任务?任何帮助将不胜感激,谢谢!!

我尝试进行一些groupby操作时会抛出火花结构化的流,它提供了预期的输出,但是我的问题是这花费了超过10分钟的时间,但是我的水印时间却是“ 30秒” ...

apache-spark spark-structured-streaming
1个回答
1
投票
而且我在UI中分析了那里有200个任务,我不知道为什么要为此计算创建200个任务?
© www.soinside.com 2019 - 2024. All rights reserved.