较大的火花分区大小的缺点

问题描述 投票:0回答:1

我已经读到太多的小分区会因为开销而影响性能,例如向执行者发送大量任务。

使用最大分区的缺点是什么,例如为什么我看到100 MB范围内的建议?

我可以看到一些潜在的问题:

  • 如果丢失分区,则需要大量工作来重新计算。对于许多较小的分区,您可能会损失更多的时间,但是在运行时中的差异会较小。
  • 如果您在大分区上的少数几个任务之一要比其他任务花费更长的时间,这将使其他内核无法使用,但是对于较小的分区,这可以更好地在整个群集中分配它。

这些问题是否有意义,还有其他问题吗?谢谢!

apache-spark
1个回答
0
投票

这两个潜在的问题是正确的。

[为了更好地使用群集,应该定义足够大的分区来计算HDFS块(通常为128/256 MB),但请避免超过该分区以获得更好的分布,从而实现水平扩展以提高性能(最大化CPU使用率)。

© www.soinside.com 2019 - 2024. All rights reserved.