在数据帧中重新分配5000万条记录数据是否是个好主意？如果是，那么有人请告诉我这样做的适当方法

问题描述投票：0回答：2

我们将在我们的组织中处理大数据（约5000万条记录）。我们基于日期和其他一些参数来划分数据，但数据不是平均分区的。我们可以对它进行重新分配以获得良好的性能吗？

python

database

dataframe

pyspark

hadoop2

2个回答

0
投票

根据您的机器尝试维护固定数量的分区。分区总是一个好主意，但在大多数情况下，基于日期进行分区并不是一个好主意（不确定，因为我不知道您的数据的性质）。

0
投票

通常，分区是一个好主意，正如@Karthik所说，通常日期并不是最好的主意。根据我的经验，根据您拥有的工作量来划分数据总是有意义的。理想情况下，您的分区大小是您的工作人员的倍数。我们通常使用120个分区，因为我们在Spark环境中有24名工作人员，最终得到的代码如下：new_df = spark.read.csv("some_csv.csv", header="true", escape="\"", quote="\"").repartition(100)

我们在使用镶木地板而不是csv时也经历了更好的性能，这是一种权衡，因为必须再次读取，重新分配和存储数据，但它在分析步骤中得到了回报。所以也许你也应该考虑这种转换。

在数据帧中重新分配5000万条记录数据是否是个好主意？如果是，那么有人请告诉我这样做的适当方法

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2