在PySpark中是否有与pandas info()方法等效的方法?
我试图在PySpark中获取有关数据帧的基本统计信息,例如:列数和行数空值数据框的大小
pandas中的Info()方法提供了所有这些统计信息。
要找出有关数据框的类型信息,您可以尝试使用df.schema
spark.read.csv('matchCount.csv',header=True).schema
StructType(List(StructField(categ,StringType,true),StructField(minv,StringType,true),StructField(maxv,StringType,true),StructField(counts,StringType,true),StructField(cutoff,StringType,true)))
对于Summary stats,您还可以查看文档中的describe方法。
我找不到一个好的答案,所以我使用了轻微的作弊
dataFrame.toPandas().info()