Pyspark中的采样

问题描述 投票:0回答:2

Pyspark的新手

我正在从HDFS加载JSON文件。它一次从一个日志中读取数据。假设从每个日志中获取date,config1d并将其加载到JSON文件中。

有一种方法可以使用随机采样仅加载5%或10%的数据,而无需将整个JSON文件加载到内存中。因为加载整个JSON文件对我来说需要一个多小时。

请让我知道是否还有其他问题

pyspark bigdata hadoop2 sample
2个回答
0
投票

对于数据框df,您可以使用df.sample(fraction = 0.05,seed = 3)采样5%。分数是介于0到1之间的数字,种子是可选的,否则是随机的。


0
投票

在Spark中,如果不先将所有数据加载到内存中就无法执行此操作。首先,您必须像@firtree所说的那样加载它和do样本(转换)。

© www.soinside.com 2019 - 2024. All rights reserved.