我有一个大数据集,数据嵌套为具有键和值的列表。因此,我不想收集()数据,而只提取相关数据,然后将其pull()到R。但是,我似乎找不到任何方法可以从Spark中的列表中提取值。
例如,这是“ col2”列的一两个单元格>
list('key1'='1','key2'='2','key3'='3','key4'='99')
list('key1'='4','key2'='5','key3'='6','key4'='222')
如何使用Sparklyr或dplyr在两行中获取'key4'的值?结果当然应该是99和222。是否有等同于纯R的变量,例如list [['key4']]?
我有一个大数据集,数据嵌套为具有键和值的列表。因此,我宁愿不收集()数据,而只提取相关数据,然后将其pull()到R。但是,我似乎......>
您可以将列表变成数据框,将它们绑定在一起,然后选择您感兴趣的列(键)。例如,
my_lists <- list(
list('key1'='1','key2'= '2', 'key3'= '3', 'key4' = '99'),
list('key1'='4','key2'= '5', 'key3'= '6', 'key4' = '222')
)
my_df <- do.call("rbind", lapply(my_lists, as.data.frame))
my_df$key4
#> [1] 99 222
#> Levels: 99 222