通过`pyspark.sql.functions.greatest`函数对缺失数据进行不同的处理

Question

我正在使用Spark 2.2.0，并希望了解greatest函数如何处理丢失的数据。

然而，我有两个矛盾的情况。

import pandas as pd
import pyspark.sql.functions as F

df_pd = pd.DataFrame(
    data={
        'a': [1, 2, 3],
        'b': [-1.0, 0.5, 2.7],
        'c': [3, None, 1]})
df1 = spark.createDataFrame(df_pd)

df2 = spark.createDataFrame([(1, -1.0, 3), (2, 0.5, None), (3, 2.7, 1)], ['a', 'b', 'c'])


df1.withColumn('max', F.greatest(F.col('a'), F.col('b'), F.col('c'))).show()
df2.withColumn('max', F.greatest(df2.a, df2.b, df2.c)).show()

第一个产生这个：

+---+----+---+---+
|  a|   b|  c|max|
+---+----+---+---+
|  1|-1.0|3.0|3.0|
|  2| 0.5|NaN|NaN|
|  3| 2.7|1.0|3.0|
+---+----+---+---+

而第二个：

+---+----+----+---+
|  a|   b|   c|max|
+---+----+----+---+
|  1|-1.0|   3|3.0|
|  2| 0.5|null|2.0|
|  3| 2.7|   1|3.0|
+---+----+----+---+

有关为什么会发生这种情况的任何想法？理想情况下，我希望跳过空值，在测试时我偶然发现了这一点。

Answer 1

第一个火花数据帧是使用熊猫数据框创建的，其中没有一个被转换为Nan，这是缺失数据的panda api的默认转换。

在第二种情况下，您使用带有原始数据的spark api，并且对于丢失的数据，它总是转换为null

在python中，null对象由none表示。你不能在python中使用null而不是使用none

通过`pyspark.sql.functions.greatest`函数对缺失数据进行不同的处理

问题描述投票：0回答：1

1个回答

最新问题

通过`pyspark.sql.functions.greatest`函数对缺失数据进行不同的处理

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1