在数据帧中重新分配5000万条记录数据是否是个好主意?如果是,那么有人请告诉我这样做的适当方法

问题描述 投票:0回答:2

我们将在我们的组织中处理大数据(约5000万条记录)。我们基于日期和其他一些参数来划分数据,但数据不是平均分区的。我们可以对它进行重新分配以获得良好的性能吗?

python database dataframe pyspark hadoop2
2个回答
0
投票

根据您的机器尝试维护固定数量的分区。分区总是一个好主意,但在大多数情况下,基于日期进行分区并不是一个好主意(不确定,因为我不知道您的数据的性质)。


0
投票

通常,分区是一个好主意,正如@Karthik所说,通常日期并不是最好的主意。根据我的经验,根据您拥有的工作量来划分数据总是有意义的。理想情况下,您的分区大小是您的工作人员的倍数。我们通常使用120个分区,因为我们在Spark环境中有24名工作人员,最终得到的代码如下:new_df = spark.read.csv("some_csv.csv", header="true", escape="\"", quote="\"").repartition(100)

我们在使用镶木地板而不是csv时也经历了更好的性能,这是一种权衡,因为必须再次读取,重新分配和存储数据,但它在分析步骤中得到了回报。所以也许你也应该考虑这种转换。

© www.soinside.com 2019 - 2024. All rights reserved.