我正在使用spark.readStream().text(<dir>)运行流作业。是否可以根据当前日期动态更改输入目录?
spark.readStream().text(<dir>)
使用默认的文本数据源是不可能的。您必须创建自己的数据源才能处理此要求。
您可以做的是读取(基于日期的目录的)父目录,然后简单地通过current_date标准函数进行过滤。流引擎应过滤掉所有不必要的目录,并为您保留当前日期的目录。
current_date