使用 pyspark 在 s3 中准备镶木地板时如何推断架构

Question

当使用

spark.read.parquet

读取s3中保存的parquet文件时，它会自动更改一些数据类型。例如字符串到整数。

如何禁用此功能并在读取时保留所有列的原始数据类型。

要读取 csv，有一个选项

inferSchema='false'

。是否有相当于阅读镶木地板的内容？我在文档中找不到它。

Answer 1

我认为你可以尝试使用显式模式来阅读：

自定义架构 = StructType([ StructField("id", IntegerType(), True), StructField("字符串值", StringType(), True) ])

df = Spark.read.schema(CustomSchema).parquet(“root/my_path)