如何在运行时更改流查询的输入目录?

问题描述 投票:0回答:1

我正在使用spark.readStream().text(<dir>)运行流作业。是否可以根据当前日期动态更改输入目录?

apache-spark spark-structured-streaming
1个回答
0
投票

使用默认的文本数据源是不可能的。您必须创建自己的数据源才能处理此要求。


您可以做的是读取(基于日期的目录的)父目录,然后简单地通过current_date标准函数进行过滤。流引擎应过滤掉所有不必要的目录,并为您保留当前日期的目录。

© www.soinside.com 2019 - 2024. All rights reserved.