Zeppelin Spark解释器:从Spark结构化流写入的HDFS数据读取时禁用_spark_metadata

问题描述 投票:1回答:1

[我们有一个通过Spark结构化流实现的流写入HDFS文件夹,并因此创建了_spark_metadata子文件夹,以便在写入文件系统时获得一次准确的保证。

另外,我们有一种模式,在这种模式下,我们可以在单独的文件夹中为历史数据重新生成流的结果。重新处理完成后,我们将重新生成的子文件夹复制到“普通模式”文件夹下。您可以想象“正常模式”文件夹的_spark_metadata不再是最新的,这会导致Zeppelin中该数据的错误读取。

当从HDFS文件夹中读取spark时,是否有办法禁止使用_spark_metadata文件夹?

apache-spark hdfs metadata apache-zeppelin spark-structured-streaming
1个回答
0
投票

我面临着同样的问题。在S3中写入镶木地板文件时,将创建_spark_metadata文件夹。当我尝试使用s3位置顶部的配置单元表读取镶木地板文件时,由于它也尝试读取_spark_metadata文件夹中存在的数据,因此出错了。

您对此没有任何解决方案。

© www.soinside.com 2019 - 2024. All rights reserved.