Pyspark:是否有与pandas info()相同的方法?

问题描述 投票:0回答:2

在PySpark中是否有与pandas info()方法等效的方法?

我试图在PySpark中获取有关数据帧的基本统计信息,例如:列数和行数空值数据框的大小

pandas中的Info()方法提供了所有这些统计信息。

python pandas apache-spark pyspark
2个回答
0
投票

要找出有关数据框的类型信息,您可以尝试使用df.schema

spark.read.csv('matchCount.csv',header=True).schema

StructType(List(StructField(categ,StringType,true),StructField(minv,StringType,true),StructField(maxv,StringType,true),StructField(counts,StringType,true),StructField(cutoff,StringType,true)))

对于Summary stats,您还可以查看文档中的describe方法。


0
投票

我找不到一个好的答案,所以我使用了轻微的作弊

dataFrame.toPandas().info()
© www.soinside.com 2019 - 2024. All rights reserved.