将 GraphX 用于组中的多个子逻辑

问题描述 投票:0回答:0

我正在处理一个要求,我正在尝试使用 GraphX

这里是输入数据集

group,childid,parentid
A,100,root
A,200,100
A,300,200
A,400,300
A,500,400
B,100,root   //in Group B, we can see multiple childs of same parent
B,200,100
B,300,200
B,400,300
B,700,300
B,800,300
B,500,400

预期产出

Output
group,childid,parentid,hierarchy, levelid
A,200,100,|100|200,2
A,300,200,|100|200|300,3
A,400,300,|100|200|300|400,4
A,500,400,|100|200|300|400|500,5

B,200,100,|100|200,2
B,300,200,|100|200|300,3
B,400,300,|100|200|300|400,4
B,500,400,|100|200|300|400|500,5

B,700,300,|100|200|300|700,4
B,800,300,|100|200|300|800,4

当父母只有孩子时,例如在 A 组中,我能够使用 GraphX 实现。但是想知道,如果使用 GraphX 的父母有多个孩子,是否有可能实现,例如在 B 组中

任何人都可以分享对此的任何想法吗?

谢谢

scala apache-spark spark-graphx
© www.soinside.com 2019 - 2024. All rights reserved.