在pyspark中使用UDF和simpe数据帧

问题描述 投票:0回答:1

我是pyspark的新手,来尝试做以下类似的事情为每个cookie调用一个函数PrintDetails,然后将结果写入文件。 spark.sql查询返回正确的数据,我也可以将其序列化为文件。有人可以帮助您处理每个Cookie上的for语句。调用UDF的语法应该是什么,如何将输出写入文本文件?

任何帮助表示赞赏。谢谢

@udf(returnType=StringType())
def PrintDetails(cookie, timestamps,current_day, current_hourly_threshold,current_daily_threshold):
     #DO SOME WORK
     return "%s\t%d\t%d\t%d\t%d\t%s" %(some_data)

def main(argv):
    spark = SparkSession \
        .builder \
        .appName("parquet_test") \
        .config("spark.debug.maxToStringFields", "100") \
        .getOrCreate()

    inputPath = r'D:\Hadoop\Spark\parquet_input_files'
    inputFiles = os.path.join(inputPath, '*.parquet')

    impressionDate =  datetime.strptime("2019_12_31", '%Y_%m_%d')
    current_hourly_threshold = 40
    current_daily_threshold = 200

    parquetFile = spark.read.parquet(inputFiles)
    parquetFile.createOrReplaceTempView("parquetFile")
    cookie_and_time = spark.sql("SELECT cookie, collect_list(date_format(from_unixtime(ts), 'YYYY-mm-dd-H:M:S'))  as imp_times FROM parquetFile group by 1  ")

    for cookie in cookie_and_time :
        PrintDetails(cookie('cookie'), cookie('imp_times'), impressionDate, current_hourly_threshold, current_daily_threshold))

pyspark pyspark-sql pyspark-dataframes
1个回答
0
投票

您可以在下面做。

cookie_df= cookie_and_time.withColumn("cookies",PrintDetails(cookie('cookie'), cookie('imp_times'), lit(impressionDate), lit(current_hourly_threshold), lit(current_daily_threshold)))

或者您可以在udf函数本身中定义所有变量,并避免将其作为参数传递。

© www.soinside.com 2019 - 2024. All rights reserved.