假设我有一个流数据帧A和一个较大的静态数据帧B。假定A的大小通常<10000个记录。但是,B是一个更大的数据帧,大小在数百万的范围内。
假设A和B都有一个“键”列。我想过滤A中没有B的A.key的行。实现此目的的最佳方法是什么。
现在,我已经尝试过A.join(B, Seq("key"), "left_anti")
。但是,性能达不到标准。无论如何,我可以加快进度吗?>
假设我有一个流数据帧A和一个较大的静态数据帧B。假定A的大小通常<10000个记录。但是,B是一个更大的数据帧,大小在数百万范围内。 ...
请尝试