在PySpark中的分区中连接DataFrame

问题描述 投票:0回答:1

我有两个数据帧,其行数很大(数百万到数千万)。我想在他们之间加入。

在我正在使用的BI系统中,您可以通过首先对特定键进行分区,然后对该键进行连接来快速完成此操作。

这是我需要在Spark中遵循的模式,还是无关紧要?乍一看似乎很多时间浪费了分区之间的数据,因为它没有被正确地预分区。

如果有必要,那我该怎么做?

apache-spark pyspark spark-dataframe
1个回答
1
投票

如果有必要,那我该怎么做?

How to define partitioning of DataFrame?

但是,只有在两个条件下才有意义:

  • 在同一个应用程序中有多个连接。分区会自行混洗,因此如果它是单个连接,则没有附加值。
  • 这是一个长期存在的应用程序,其中将重用洗牌数据。 Spark无法利用以外部格式存储的数据的分区。
© www.soinside.com 2019 - 2024. All rights reserved.