我有一个如下所示的数据集。第二列包括每个组织的唯一编号。 有一些组织具有相同的名称(如最后一行)
组织名称 | org_uniq_nr | 创始人排名 | 创始人姓名 | 金额_金钱 |
---|---|---|---|---|
佐霍 | 652 | 46 | n1 | m1 |
佐霍 | 652 | 2389 | n2 | m2 |
a | 1901 | 1299 | n3 | m3 |
b | 88 | 776 | n4 | m4 |
c | 6965 | 991 | n5 | m5 |
b | 88 | 80 | n6 | m6 |
佐霍 | 779 | 1445 | n7 | m7 |
我想过滤 Founder_rank 值较低的组织。例如:有 2 行具有相同的 org_uniq_nr (Zoho)。但我只想要一个创始人级别较低的人。因此应删除具有较高Founder_rank 的行。
组织名称 | org_uniq_nr | 创始人排名 | 创始人姓名 | 金额_金钱 |
---|---|---|---|---|
佐霍 | 106 | 46 | n1 | m1 |
a | 1901 | 1299 | n3 | m3 |
b | 88 | 776 | n4 | m4 |
c | 6965 | 991 | n5 | m5 |
佐霍 | 779 | 1445 | n7 | m7 |
您可以按
founder_rank
对数据帧进行排序,然后按 org_name
进行分组并获取第一条记录 -
df.sort_values("founder_rank").groupby("org_name").first()