如何在运行时改变流式查询的输入目录？

我在使用 spark.readStream().text(<dir>) 来运行一个流式作业。能否根据当前日期动态改变输入目录？

0
投票

默认的文本数据源是不可能的，你必须创建自己的数据源来处理这个需求。你必须创建你自己的数据源来处理这个需求。

你可以做的是读取父目录（基于日期的目录），然后简单地通过以下方式进行过滤。current_date 标准函数。流媒体引擎应该过滤掉所有不必要的目录，只留下当前日期的目录。