如何在运行时改变流式查询的输入目录?

问题描述 投票:0回答:1

我在使用 spark.readStream().text(<dir>) 来运行一个流式作业。能否根据当前日期动态改变输入目录?

apache-spark spark-streaming spark-structured-streaming
1个回答
0
投票

默认的文本数据源是不可能的,你必须创建自己的数据源来处理这个需求。你必须创建你自己的数据源来处理这个需求。


你可以做的是读取父目录(基于日期的目录),然后简单地通过以下方式进行过滤。current_date 标准函数。流媒体引擎应该过滤掉所有不必要的目录,只留下当前日期的目录。

© www.soinside.com 2019 - 2024. All rights reserved.