在 Pyspark 中动态转换数据类型

Question

我正在从 PostgresSQL 创建一个 parquet 文件，它的所有内容都标记为 varchar 列。一旦我们在 ADLS 中拥有文件，我们希望使用 Python/Pyspark 根据 Azure databricks 中的日期、整数、varchar 字段等数据来转换数据类型。

相同的代码需要由多个文件使用具有不同的模式，因此需要一个通用过程，没有硬编码值。

我有用户 inferSchema=True 但它仍然将 int 读取为字符串。所以想要一种自动投射字段的方法

Answer 1