在Pyspark填写na随机数字

Question

我正在使用Pyspark DataFrame。

我想更新Age列中的NA值，其随机值在14到46之间。

我该怎么做？

Answer 1

如果你想用相同的随机数替换空值，玛拉的答案是正确的，但是如果你想要每个年龄的随机值，你应该做一些合并和F.rand（），如下图所示：

import pyspark.sql.functions as F
from pyspark.sql.functions import lit
from pyspark.sql.types import IntegerType
from random import randint

df = sqlContext.createDataFrame(
    [(1, "a", 23.0), (3, "B", -23.0)], ("x1", "x2", "x3"))

df = (df
    .withColumn("x4", F.lit(None).cast(IntegerType()))
    .withColumn("x5", F.lit(None).cast(IntegerType()))
    )

df.na.fill({'x4':randint(0,100)}).show()
df.withColumn('x5', F.coalesce(F.col('x5'), (F.round(F.rand()*100)))).show()


+---+---+-----+---+----+
| x1| x2|   x3| x4|  x5|
+---+---+-----+---+----+
|  1|  a| 23.0|  9|null|
|  3|  B|-23.0|  9|null|
+---+---+-----+---+----+
+---+---+-----+----+----+
| x1| x2|   x3|  x4|  x5|
+---+---+-----+----+----+
|  1|  a| 23.0|null|44.0|
|  3|  B|-23.0|null| 2.0|
+---+---+-----+----+----+

Answer 2

randint函数是你需要的：它在两个数字之间生成一个随机整数。将其应用于'age'列的fillna spark函数中。

from random import randint
df.fillna(randint(14, 46), 'age').show()

在Pyspark填写na随机数字

问题描述投票：0回答：2

2个回答

最新问题

在Pyspark填写na随机数字

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2