我对Python完全陌生,只是学习了一些用例。
我有2个数据框,一个是在“国家/地区”列中需要值的地方,另一个是在名为“国家/地区”列中的值,需要在主数据框中引用名为“数据”的列进行映射'。(如果已经回答了这个问题,请接受我的道歉)
下面是主数据框:
Name Data | Country
----------------------------- | ---------
Arjun Kumar Reddy las Vegas |
Divya london Khosla |
new delhi Pragati Kumari |
Will London Turner |
Joseph Mascurenus Bombay |
Jason New York Bourne |
New york Vice Roy |
Joseph Mascurenus new York |
Peter Parker California |
Bruce (istanbul) Wayne |
下面是引用的数据框:
Data | Countries
-------------- | ---------
las Vegas | US
london | UK
New Delhi | IN
London | UK
bombay | IN
New York | US
New york | US
new York | US
California | US
istanbul | TR
Moscow | RS
Cape Town | SA
而且我想要的结果将如下所示:
Name Data | Country
----------------------------- | ---------
Arjun Kumar Reddy las Vegas | US
Divya london Khosla | UK
new delhi Pragati Kumari | IN
Will London Turner | UK
Joseph Mascurenus Bombay | IN
Jason New York Bourne | US
New york Vice Roy | US
Joseph Mascurenus new York | US
Peter Parker California | US
Bruce (istanbul) Wayne | TR
请注意,两个数据帧的大小都不相同。我虽然使用map或Fuzzywuzzy方法,但无法真正实现结果。
似乎所有内容都已排序,因此您可以在索引上合并
mdf.merge(rdf, left_index=True, right_index=True)