我有两个要加入的数据框。渔获是表之一具有管道分隔的字符串,其中一个值是我要加入的值。我如何在Pyspark中。下面是一个例子表A具有
+-------+--------------------+
|id | name |
+-------+--------------------+
| 613760|123|test|test2 |
| 613740|456|ABC |
| 598946|OMG|567 |
表B有
+-------+--------------------+
|join_id| prod_type|
+-------+--------------------+
| 123 |Direct De |
| 456 |Direct |
| 567 |In |
预期结果-当表A的管道分隔ID与表B的值匹配时,将表A和表B连接起来。例如TableA.id-613760,名称具有123 | test,我想与表B的联接ID 123一样联接456和567。
结果表
+--------------------+-------+ | name |join_Id| +-------+------------+-------+ |123|test|test2 |123 | |456|ABC |456 | |OMG|567 |567 |
有人可以帮我解决这个问题吗?我是pyspark的新手,正在学习
我有两个要加入的数据框。渔获是表之一具有管道分隔的字符串,其中一个值是我要加入的值。我如何在Pyspark中。下面是...
要解决您的问题,您需要: