Pyspark中的采样

问题描述投票：0回答：2

Pyspark的新手

我正在从HDFS加载JSON文件。它一次从一个日志中读取数据。假设从每个日志中获取date，config1d并将其加载到JSON文件中。

有一种方法可以使用随机采样仅加载5％或10％的数据，而无需将整个JSON文件加载到内存中。因为加载整个JSON文件对我来说需要一个多小时。

请让我知道是否还有其他问题

pyspark bigdata hadoop2 sample

2个回答

0
投票

对于数据框df，您可以使用df.sample（fraction = 0.05，seed = 3）采样5％。分数是介于0到1之间的数字，种子是可选的，否则是随机的。

0
投票

在Spark中，如果不先将所有数据加载到内存中就无法执行此操作。首先，您必须像@firtree所说的那样加载它和do样本（转换）。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.