_spark_metadata导致问题

问题描述 投票:1回答:1

我使用Spark与Scala,我有一个目录,我有多个文件。

在这个目录中,我有Spark生成的Parquet文件和Spark Streaming生成的其他文件。

Spark流生成一个目录_spark_metadata。

我面临的问题是当我用Spark(sparksession.read.load)读取目录时,它只读取Spark流生成的数据,就像其他数据不存在一样。

有人知道如何解决这个问题,我认为应该有一个属性来强制Spark忽略spark_metadata目录。

谢谢您的帮助

scala apache-spark spark-streaming
1个回答
0
投票

我有同样的问题(Spark 2.4.0),我知道的唯一方法是使用掩码/模式加载文件,类似这样的

sparksession.read.format("parquet").load("/path/*.parquet")

据我所知,有no way to ignore this directory。如果存在,Spark会考虑它。

© www.soinside.com 2019 - 2024. All rights reserved.