如何创建一个列，其所有值都在PySpark中的另一列给定的范围内

Question

我在使用PySpark 2.0版的以下场景中遇到问题，我有一个DataFrame，其中的一列包含一个具有开始和结束值的数组，例如[1000, 1010]

我想知道如何创建和计算另一列，该列包含一个包含给定范围内所有值的数组？生成的范围值列的结果将是：

    +--------------+-------------+-----------------------------+
    |   Description|     Accounts|                        Range|
    +--------------+-------------+-----------------------------+
    |       Range 1|   [101, 105]|    [101, 102, 103, 104, 105]|
    |       Range 2|   [200, 203]|         [200, 201, 202, 203]|
    +--------------+-------------+-----------------------------+

Answer 1

您应该使用UDF(UDF sample)考虑您的pyspark数据框名称为df，您的数据框可能像这样：

import numpy as np
df = spark.createDataFrame(
[("Range 1", list([101,105])), 
 ("Range 2", list([200, 203]))],
("Description", "Accounts"))

您的解决方案是这样的：

import pyspark.sql.functions as F

def make_range_number(arr):
    number_range = np.arange(arr[0], arr[1]+1, 1).tolist()
    return number_range

range_udf = F.udf(make_range_number)

df = df.withColumn("Range", range_udf(F.col("Accounts")))

玩得开心！：）

如何创建一个列，其所有值都在PySpark中的另一列给定的范围内

问题描述投票：0回答：1

1个回答

最新问题

如何创建一个列，其所有值都在PySpark中的另一列给定的范围内

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1