如何根据Pyspark中数据框中的条件设置新的列表值？

Question

我有一个像下面这样的DataFrame。

+---+------------------------------------------+
|id |features                                  |
+---+------------------------------------------+
|1  |[6.629056, 0.26771536, 0.79063195,0.8923] |
|2  |[1.4850719, 0.66458416, -2.1034079]       |
|3  |[3.0975454, 1.571849, 1.9053307]          |
|4  |[2.526619, -0.33559006, -1.4565022]       |
|5  |[-0.9286196, -0.57326394, 4.481531]       |
|6  |[3.594114, 1.3512149, 1.6967168]          |
+---+------------------------------------------+

我想根据下面的条件来设置我的一些功能值。即其中id=1，id=2或id=6。

我想设置新的功能值id=1，我当前的功能值是[6.629056, 0.26771536, 0.79063195,0.8923]，但我想设置[0,0,0,0]。

我想设置新的功能值id=2，我当前的功能值是[1.4850719, 0.66458416, -2.1034079]，但我想设置[0,0,0]。

我的最终出局将是：

+------+-----------------------------------+
|id  | features                            |
+-----+---------------------------------- -+
|1  | [0, 0, 0, 0]                          |
|2  | [0,0,0]                              |
|3  | [3.0975454, 1.571849, 1.9053307]     |
|4  | [2.526619, -0.33559006, -1.4565022]  |
|5  | [-0.9286196, -0.57326394, 4.481531]  |
|6  | [0,0,0]                              |
+-----+------------------------------------+

Answer 1

Shaido的答案很好，如果你有一套有限的id，你知道相应的feature的长度。

如果不是这样，那么使用UDF应该更干净，并且要转换的qazxswpois可以加载到另一个id中：

在斯卡拉

Seq

在Python中

val arr = Seq(1,2,6)

val fillArray = udf { (id: Int, array: WrappedArray[Double] ) =>
                        if (arr.contains(id) ) Seq.fill[Double](array.length)(0.0) 
                        else array 
                     }

df.withColumn("new_features" , fillArray($"id", $"features") ).show(false)

产量

from pyspark.sql import functions as f
from pyspark.sql.types import *

arr = [1,2,6]

def fillArray(id, features):
    if(id in arr): return [0.0] * len(features)
    else : return features

fill_array_udf = f.udf(fillArray, ArrayType( DoubleType() ) )

 df.withColumn("new_features" , fill_array_udf( f.col("id"), f.col("features") ) ).show()

Answer 2

如果您要更改一小组ID，请使用+---+------------------------------------------+-----------------------------------+ |id |features |new_features | +---+------------------------------------------+-----------------------------------+ |1 |[6.629056, 0.26771536, 0.79063195, 0.8923]|[0.0, 0.0, 0.0, 0.0] | |2 |[1.4850719, 0.66458416, -2.1034079] |[0.0, 0.0, 0.0] | |3 |[3.0975454, 1.571849, 1.9053307] |[3.0975454, 1.571849, 1.9053307] | |4 |[2.526619, -0.33559006, -1.4565022] |[2.526619, -0.33559006, -1.4565022]| |5 |[-0.9286196, -0.57326394, 4.481531] |[-0.9286196, -0.57326394, 4.481531]| |6 |[3.594114, 1.3512149, 1.6967168] |[0.0, 0.0, 0.0] | +---+------------------------------------------+-----------------------------------+和when：

otherwise

它应该比df.withColumn("features", when(df.id === 1, array(lit(0), lit(0), lit(0), lit(0))) .when(df.id === 2 | df.id === 6, array(lit(0), lit(0), lit(0))) .otherwise(df.features)))更快，但如果有很多ID需要改变它很快会变成很多代码。在这种情况下，使用UDF，如philantrovert的答案。

如何根据Pyspark中数据框中的条件设置新的列表值？

问题描述投票：0回答：2

2个回答

最新问题

如何根据Pyspark中数据框中的条件设置新的列表值？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2