如何在运行时更改流查询的输入目录？

我正在使用spark.readStream().text(<dir>)运行流作业。是否可以根据当前日期动态更改输入目录？

0
投票

使用默认的文本数据源是不可能的。您必须创建自己的数据源才能处理此要求。

您可以做的是读取（基于日期的目录的）父目录，然后简单地通过current_date标准函数进行过滤。流引擎应过滤掉所有不必要的目录，并为您保留当前日期的目录。