pysaprk中的Dropna给出0个结果

问题描述 投票:0回答:1

我在spark中有一个缺少值的数据框。我正在尝试删除缺失值超过50%的列参见下面的代码:

frac =  fil_data.count() * .50
print(frac)
t_data = fil_data.dropna(thresh=390951)
print(t_data.count())

打印计数给我0为什么会这样呢?我们如何解决此问题

我在发布前进行了研究,每个人都使用简单的简单dropna(how =任何或所有)而不是阈值

pyspark pyspark-sql pyspark-dataframes
1个回答
0
投票

请注意,dropna始终会删除行,而不是列。要正确使用thresh选项,请参阅文档:thresh – int, default None If specified, drop rows that have less than thresh non-null values. This overwrites the how parameter.因此,您删除所有少于390951个非空值的行,这可能是全部,因为您没有400k列,我认为

© www.soinside.com 2019 - 2024. All rights reserved.