Im正在编写执行“对任何配置单元表格式化的desc格式”以获取其列名和类型的通用实用程序,我想将这些类型转换为等效的pyspark sql类型(将int转换为IntegerType,将int转换为longint,等等) 。是否有可用的api可以将pyspark等效类型返回为hive数据类型?
如果数据使用Apache Hive样式的分区路径在s3中,则您应该能够运行aws胶搜寻器来收集元数据,然后可以在spark.read()中使用'inferschema = True',这将允许spark自动解释列类型并赋予其结构。