我需要将the raw table匿名化为anonymized table。换句话说,我需要将非重复的集合替换为星号。
实际上,我已经运行了这段代码:
for j in range(len(zz_new)):
for i in range(len(zz)):
if zz_new.iloc[j][0] != zz.iloc[i][0]:
zz_new.iat[j,0]="*"
if zz_new.iloc[j][1] != zz.iloc[i][1]:
zz_new.iat[j,1]="*"
if zz_new.iloc[j][2] != zz.iloc[i][2]:
zz_new.iat[j,2]="*"
if zz_new.iloc[j][3] != zz.iloc[i][3]:
zz_new.iat[j,3]="*"
if zz_new.iloc[j][4] != zz.iloc[i][4]:
zz_new.iat[j,4]="*"
,但结果是这样的My anonymized table。我想知道您是否可以帮助我达到anonymized table。
您需要做的是遍历每一行,找出哪些行重复。有很多方法可以做到,但是蛮力算法看起来像这样:
但是,此解决方案在第2步和第3步进行了大量冗余查找,如果数据集很大,可能无法很好地扩展。