熊猫 - 给所有行（尤其是）重复行的唯一标识符

Question

比方说，我有5列的DF，我想为每个行的唯一“钥匙”。

   a  b  c  d  e
1  1  2  3  4  5
2  1  2  3  4  6
3  1  2  3  4  7 
4  1  2  2  5  6
5  2  3  4  5  6
6  2  3  4  5  6
7  3  4  5  6  7

我想创建一个“关键”列如下：

   a  b  c  d  e  key
1  1  2  3  4  5  12345
2  1  2  3  4  6  12346
3  1  2  3  4  7  12347
4  1  2  2  5  6  12256
5  2  3  4  5  6  23456
6  2  3  4  5  6  23456
7  3  4  5  6  7  34567

现在，这个问题当然是该行5和6是重复的。

我希望能够创造出像这样独特的钥匙：

   a  b  c  d  e  key
1  1  2  3  4  5  12345_1
2  1  2  3  4  6  12346_1
3  1  2  3  4  7  12347_1
4  1  2  2  5  6  12256_1
5  2  3  4  5  6  23456_1
6  2  3  4  5  6  23456_2
7  3  4  5  6  7  34567_1

不知道如何做到这一点，或者如果这是最好的方法 - 感谢任何帮助。

谢谢

编辑：栏目将主要字符串，而不是数字。

Answer 1

在办法就是散列到每一行的元组：

In [11]: df.apply(lambda x: hash(tuple(x)), axis=1)
Out[11]:
1   -2898633648302616629
2   -2898619338595901633
3   -2898621714079554433
4   -9151203046966584651
5    1657626630271466437
6    1657626630271466437
7    3771657657075408722
dtype: int64

In [12]: df['key'] = df.apply(lambda x: hash(tuple(x)), axis=1)

In [13]: df['key'].astype(str) + '_' + (df.groupby('key').cumcount() + 1).astype(str)
Out[13]:
1    -2898633648302616629_1
2    -2898619338595901633_1
3    -2898621714079554433_1
4    -9151203046966584651_1
5     1657626630271466437_1
6     1657626630271466437_2
7     3771657657075408722_1
dtype: object

注意：一般来说，你不需要做这个（目前还不清楚为什么你会想！）。

Answer 2

尝试这个。，

df['key']=df.apply(lambda x:'-'.join(x.values.tolist()),axis=1)
m=~df['key'].duplicated()
s= (df.groupby(m.cumsum()).cumcount()+1).astype(str)
df['key']=df['key']+'_'+s
print (df)

O / P：

   a  b  c  d  e          key
0  1  2  3  4  5  1-2-3-4-5_0
1  1  2  3  4  6  1-2-3-4-6_0
2  1  2  3  4  7  1-2-3-4-7_0
3  1  2  2  5  6  1-2-2-5-6_0
4  2  3  4  5  6  2-3-4-5-6_0
5  2  3  4  5  6  2-3-4-5-6_1
6  3  4  5  6  7  3-4-5-6-7_0
7  1  2  3  4  5  1-2-3-4-5_1

另一种更简单的方法：

df['key']=df['key']+'_'+(df.groupby('key').cumcount()).astype(str)

说明：

首先使用连接创建唯一ID。
创建一个序列s重复使用和执行cumsum，当新的价值发现的重启。
最后Concat的密钥和序列s。

Answer 3

也许你可以做一些链接如下

import uuid
df['uuid'] = [uuid.uuid4() for __ in range(df.index.size)]

Answer 4

另一种方法是使用np.random.choice(range(10000,99999), len(df), replace=False)无需更换为您的DF每一行生成唯一的随机数：

df = pd.DataFrame(columns = ['a', 'b', 'c', 'd', 'e'],
                  data = [[1,  2,  3,  4,  5],[1,  2,  3,  4,  6],[1,  2,  3,  4,  7],[1,  2,  2,  5,  6],[2,  3,  4,  5,  6],[2,  3,  4,  5,  6],[3,  4,  5,  6,  7]])

df['key'] = np.random.choice(range(10000,99999), len(df), replace=False)

df

    a   b   c   d   e   key
0   1   2   3   4   5   10560
1   1   2   3   4   6   79547
2   1   2   3   4   7   24762
3   1   2   2   5   6   95221
4   2   3   4   5   6   79460
5   2   3   4   5   6   62820
6   3   4   5   6   7   82964

熊猫 - 给所有行（尤其是）重复行的唯一标识符

问题描述投票：1回答：4

4个回答

最新问题

熊猫 - 给所有行（尤其是）重复行的唯一标识符

问题描述 投票：1回答：4

4个回答

最新问题

问题描述投票：1回答：4