Zeppelin Spark解释器：从Spark结构化流写入的HDFS数据读取时禁用_spark_metadata

问题描述投票：1回答：1

[我们有一个通过Spark结构化流实现的流写入HDFS文件夹，并因此创建了_spark_metadata子文件夹，以便在写入文件系统时获得一次准确的保证。

另外，我们有一种模式，在这种模式下，我们可以在单独的文件夹中为历史数据重新生成流的结果。重新处理完成后，我们将重新生成的子文件夹复制到“普通模式”文件夹下。您可以想象“正常模式”文件夹的_spark_metadata不再是最新的，这会导致Zeppelin中该数据的错误读取。

当从HDFS文件夹中读取spark时，是否有办法禁止使用_spark_metadata文件夹？

apache-spark

hdfs

metadata

apache-zeppelin

spark-structured-streaming

1个回答

0
投票

我面临着同样的问题。在S3中写入镶木地板文件时，将创建_spark_metadata文件夹。当我尝试使用s3位置顶部的配置单元表读取镶木地板文件时，由于它也尝试读取_spark_metadata文件夹中存在的数据，因此出错了。

您对此没有任何解决方案。