我已经读到太多的小分区会因为开销而影响性能,例如向执行者发送大量任务。
使用最大分区的缺点是什么,例如为什么我看到100 MB范围内的建议?
我可以看到一些潜在的问题:
这些问题是否有意义,还有其他问题吗?谢谢!
这两个潜在的问题是正确的。
[为了更好地使用群集,应该定义足够大的分区来计算HDFS块(通常为128/256 MB),但请避免超过该分区以获得更好的分布,从而实现水平扩展以提高性能(最大化CPU使用率)。