进行流式处理时是否可以移动输出文件,而不会使Spark作业崩溃?

问题描述 投票:0回答:1

我有一个以Kafka为源运行的结构化流Spark作业,以附加模式输出orc文件。在作业运行时,我每隔一定时间将文件(想要)移动到hdfs位置。通过移动文件,火花作业是否会崩溃或因此产生不良输出?一旦spark写入了文件,它会由于某种原因再次查看该文件吗?我想执行文件移动,但是我不想以任何方式破坏火花。

apache-spark hdfs streaming spark-streaming
1个回答
2
投票

当您添加数据移动文件时,只要在输出文件夹中生成的_spark_metadata目录且检查点目录保持同步,就不会影响您的结构化流作业。

© www.soinside.com 2019 - 2024. All rights reserved.