我有两个大小约为1,000,000行的数据帧。两者共享一个共同的“地址”列,我用它来加入数据帧。使用此连接,我希望将信息(我称之为“详细信息”)从dataframe1移动到dataframe2。
df2.details = df2.Address.map(dict(zip(df1.Address,df1.details)))
但是,地址列不具有完整的通用性。我尽可能地尝试清洁,但仍然只能移动大约40%的数据。有没有办法修改我的上面的代码,以允许部分匹配?我完全被这个困扰了。
数据非常简单,如描述的那样。两个小数据帧。以下制作的样本数据:
df1
Address Details
Apt 15 A, Long Street, Fake town, US A
df2
Address Details
15A, Long Street, Fake town, U.S.
首先,我建议执行join
操作并识别每个数据框中没有完美匹配的行。确定这些行后,排除其他行并继续执行以下建议: