火花流-过滤大型数据帧中不存在键的行

问题描述 投票:0回答:1

假设我有一个流数据帧A和一个较大的静态数据帧B。假定A的大小通常<10000个记录。但是,B是一个更大的数据帧,大小在数百万的范围内。

假设A和B都有一个“键”列。我想过滤A中没有B的A.key的行。实现此目的的最佳方法是什么。

现在,我已经尝试过A.join(B, Seq("key"), "left_anti")。但是,性能达不到标准。无论如何,我可以加快进度吗?>

假设我有一个流数据帧A和一个较大的静态数据帧B。假定A的大小通常<10000个记录。但是,B是一个更大的数据帧,大小在数百万范围内。 ...

apache-spark pyspark apache-spark-sql spark-streaming pyspark-dataframes
1个回答
0
投票

请尝试

© www.soinside.com 2019 - 2024. All rights reserved.