使用 pyspark 在 s3 中准备镶木地板时如何推断架构

问题描述 投票:0回答:1

当使用

spark.read.parquet
读取s3中保存的parquet文件时,它会自动更改一些数据类型。例如字符串到整数。

如何禁用此功能并在读取时保留所有列的原始数据类型。

要读取 csv,有一个选项

inferSchema='false'
。是否有相当于阅读镶木地板的内容?我在文档中找不到它。

amazon-web-services amazon-s3 pyspark parquet
1个回答
0
投票

我认为你可以尝试使用显式模式来阅读:

自定义架构 = StructType([ StructField("id", IntegerType(), True), StructField("字符串值", StringType(), True) ])

df = Spark.read.schema(CustomSchema).parquet(“root/my_path)

© www.soinside.com 2019 - 2024. All rights reserved.