我有一个数据集,必须以特定方式组织,以便其他团队输入到应用程序中。 我的数据集如下所示: XXAAA XX BBB XXCCC XX DDD XX电子电气设备 XXFFF yyAAA级 YY BBB 阳阳CCC 年年日日 YY EE YYFFF AAA级 ZZBBB LL CCC JJDD
我需要输出看起来像这样:
XX、YY:AAA、BBB、CCC、DDD、EEE、FFF #这是最重要的“分组”。 ZZ:AAA,BBB LL:CCC JJ:DD
最重要的关系是第一行,其中有多个“键”与多个“值”关联。关键的细节是“键”共享所有相同的“值”。 我意识到我正在使用字典术语,但我还没有找到一种以这种方式组织字典的方法。 到目前为止,我已经尝试过 for 循环,将数据放入带有键和值的字典中,但问题是我需要将多个键与多个值关联起来,但我还没有找到一种方法来做到这一点。 这里真的需要一些帮助。
假设你的 DF 是这样的
col1 col2
0 XX AAA
1 XX BBB
2 XX CCC
3 XX DDD
4 XX EEE
5 XX FFF ... and so on using your data
然后是代码:
df2 = df.groupby('col1').agg(list).reset_index
d = {}
for b in df2.itertuples():
d[b.col1] = b.col2
print(d)
给予
{'JJ': ['DDD'], 'LL': ['CCC'], 'XX': ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'], 'YY': ['AAA', 'BBB', 'CCC', 'DDD', 'EEE', 'FFF'], 'ZZ': ['AAA', 'BBB']}