Spark SCALA - 连接两个数据帧,其中一个数据帧中的连接值位于第二个数据帧中的两个字段之间

问题描述 投票:0回答:1

我有两个数据帧(删除与问题无关的字段):

df1: org.apache.spark.sql.DataFrame = [rawValue: bigint]
df2: org.apache.spark.sql.DataFrame = [startLong: bigint, endLong: bigint]

我现在想加入两个数据框,其中:

rawValue(df1) >= startLong(df2) AND <= endLong(df2)

任何人都可以推荐一种有效的方法吗?我想到的一个选项是flatmap df2,然后做一个直接的join,但如果有一种有效的方法来进行上述连接,我不想这样做。

apache-spark apache-spark-sql spark-streaming
1个回答
1
投票

您可以直接使用加入两个数据帧时的条件

让我举一个例子来说明。我创造了两个与你提到的相同的dataframes

val df1 = Seq((2L), (5L), (15L), (9L)).toDF("rawValue")
//df1: org.apache.spark.sql.DataFrame = [rawValue: bigint]

val df2 = Seq((3L, 5L), (10L, 16L), (9L, 9L)).toDF("startLong", "endLong")
//df2: org.apache.spark.sql.DataFrame = [startLong: bigint, endLong: bigint]

我现在想要加入两个数据帧,其中rawValue(df1)> = startLong(df2)AND <= endLong(df2)

为此你可以使用条件

df1.join(df2, df1("rawValue") >= df2("startLong") && df1("rawValue") <= df2("endLong")).show(false)

哪个应该给你

+--------+---------+-------+
|rawValue|startLong|endLong|
+--------+---------+-------+
|5       |3        |5      |
|15      |10       |16     |
|9       |9        |9      |
+--------+---------+-------+
© www.soinside.com 2019 - 2024. All rights reserved.