这与上面帖子中给出的答案有不同的答案
我收到的错误是读取的
pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'
当我尝试使用Spark 2.1.0阅读像这样的镶木地板文件
data = spark.read.parquet('/myhdfs/location/')
我通过Hue WebPortal查看impala表,检查了文件/表是否为空。此外,我存储在类似目录中的其他文件读取绝对正常。对于记录,文件名包含连字符但没有下划线或句号/句点。
因此,以下帖子中没有一个答案适用Unable to infer schema when loading Parquet file
有任何想法吗?
事实证明我得到了这个错误,因为目录结构还有另一个级别。以下是我所需要的;
data = spark.read.parquet('/myhdfs/location/anotherlevel/')