set()在pyspark rdd代码下面的含义是什么

问题描述 投票:-1回答:1

set([x [1]]))在下面的代码中意味着什么,或者通常说set是什么?谢谢

result_rdd = joined_df. \
map(lambda x : ((x[1], str(x[3])), (float(x[8]), int(x[0])))). \
combineByKey(
lambda x : (x[0], set([x[1]])),
lambda x, y : (x[0] + y[0], x[1] | set([y[1]])),
lambda x, y : (x[0] + y[0], x[1] | y[1])). \
map(lambda x :(x[0][0], x[0][1], x[1][0], len(x[1][1])))
set
1个回答
1
投票

set是一个保存非重复元素的数据结构。

so,set([y [1]])意味着将y [1]数据放入列表中,然后将其转换为set,这样,如果y中的元素被复制,则不会将其插入set。

© www.soinside.com 2019 - 2024. All rights reserved.