Py spark在管道分隔的列上连接

问题描述 投票:0回答:1

我有两个要加入的数据框。渔获是表之一具有管道分隔的字符串,其中一个值是我要加入的值。我如何在Pyspark中。下面是一个例子表A具有

+-------+--------------------+
|id     |      name          |
+-------+--------------------+
| 613760|123|test|test2      |
| 613740|456|ABC             |
| 598946|OMG|567             | 

表B有

+-------+--------------------+
|join_id|           prod_type|                           
+-------+--------------------+
| 123   |Direct De           |
| 456   |Direct              |
| 567   |In                  | 

预期结果-当表A的管道分隔ID与表B的值匹配时,将表A和表B连接起来。例如TableA.id-613760,名称具有123 | test,我想与表B的联接ID 123一样联接456和567。

结果表

+--------------------+-------+
|      name          |join_Id|
+-------+------------+-------+
|123|test|test2      |123    |
|456|ABC             |456    |
|OMG|567             |567    |

有人可以帮我解决这个问题吗?我是pyspark的新手,正在学习

我有两个要加入的数据框。渔获是表之一具有管道分隔的字符串,其中一个值是我要加入的值。我如何在Pyspark中。下面是...

pyspark pyspark-sql pyspark-dataframes
1个回答
0
投票

要解决您的问题,您需要:

© www.soinside.com 2019 - 2024. All rights reserved.