当使用
spark.read.parquet
读取s3中保存的parquet文件时,它会自动更改一些数据类型。例如字符串到整数。
如何禁用此功能并在读取时保留所有列的原始数据类型。
要读取 csv,有一个选项
inferSchema='false'
。是否有相当于阅读镶木地板的内容?我在文档中找不到它。
我认为你可以尝试使用显式模式来阅读:
自定义架构 = StructType([ StructField("id", IntegerType(), True), StructField("字符串值", StringType(), True) ])
df = Spark.read.schema(CustomSchema).parquet(“root/my_path)