有没有办法保持匿名后的关系?即位于不同列中的两个表中的数据被匿名化为相同的东西?
我在网上看到了很多例子,但仅限于匿名化单个表。如何对两个表执行此操作并保持列之间的关系,以便它们匿名为同一事物,如下例所示?
示例:
预匿名化:
表1
表2:
匿名发布:
表1
表2:
import pandas as pd
import random
df = pd.DataFrame({'ID': [1,1,2,3],
'value': ['sdfsdfs', 'fhgdhds', 'rgeerfdg', 'regfdd']})
# create dictionary to replace ID column with
IDs = df['ID'].unique()
anon = {}
for ID in IDs:
annon[ID] = random.randint(111111,999999)
df.replace({'ID': anon}, inplace=True)
df
ID value
0 373005 sdfsdfs
1 373005 fhgdhds
2 152871 rgeerfdg
3 934125 regfdd