将 pyspark 数据帧保存到 parquet 文件时发出问题

问题描述 投票:0回答:1

我正在从 csv 文件读取数据并存储到 parquet 文件中,在将数据保存到 parquet 文件中时,正在创建一个空文件夹(文件夹名称为 test.parquet)并且未创建 parquet 文件

我收到以下错误

ERROR FileFormatWriter: Aborting job f2349e7c-a6e3-43eb-af25-f09ad99ea682.

这是我的代码

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("example").getOrCreate()
csv_file = "C:\\folder\\file.csv"

df_data = spark.read.csv(csv_file, header=True, inferSchema=True)

df_data.show()
new_parquet_file = "C:\\folder2\\test.Parquet"
df_data.write.mode("overwrite").format("parquet").save(new_parquet_file)

任何人都可以帮助我为什么没有创建镶木地板文件并且使用镶木地板文件名创建一个空文件夹

python dataframe apache-spark pyspark parquet
1个回答
0
投票
  1. 请从以下位置下载 winutils.zip https://github.com/steveloughran/winutils/releases/download/tag_2017-08-29-hadoop-2.8.1-native/hadoop-2.8.1.zip
  2. 将 hadoop-2.8.1.zip 中的所有文件解压到目录中的 %SPARK_HOME% 中
  3. 在;%PATH% 中设置 PATH=%SPARK_HOME%
  4. 再次运行测试,它应该可以工作
© www.soinside.com 2019 - 2024. All rights reserved.