我有一个包含波兰近 400 个县的数据集。我需要合并几个包含与这些县相关的数据的文件。每个县都通过其名称和代码进行标识。然而,存在一个挑战:有 10 对同名的县。例如,小波兰省和奥波兰省都有一个名为“powiat brzeski”的县。为了区分这些县,我想使用 Python 在县名旁边添加省名。我尝试使用以下方法执行此操作,但遇到了一个问题:操作后,“County”列中的值(受操作影响的值除外)变成了 NaN。你能帮我解决这个问题吗?
import pandas as pd
# Sample DataFrame
data = {'Code': [1202000, 2402000, 802000, 3017000, 3005000, 9999999], # Added an unmatched code 9999999
'County': ['Powiat brzeski', 'Powiat bielski', 'Powiat krośnieński', 'Powiat ostrowski', 'Powiat grodziski', 'Powiat ciechanowski']} # Added an unmatched county
df = pd.DataFrame(data)
# Print updated DataFrame
print(df)
结果:
Code County
0 1202000 Powiat brzeski
1 2402000 Powiat bielski
2 802000 Powiat krośnieński
3 3017000 Powiat ostrowski
4 3005000 Powiat grodziski
5 9999999 Powiat ciechanowski
data = {'Code': [1202000, 2402000, 802000, 3017000, 3005000, 9999999], # Added an unmatched code 9999999
'County': ['Powiat brzeski', 'Powiat bielski', 'Powiat krośnieński', 'Powiat ostrowski', 'Powiat grodziski', 'Powiat ciechanowski']} # Added an unmatched county
df = pd.DataFrame(data)
# Dictionary mapping codes to county names
code_to_county = {
1202000: "Powiat brzeski_Malopolskie",
2402000: "Powiat bielski_Slaskie",
802000: "Powiat krośnieński_Lubuskie",
3017000: "Powiat ostrowski_Wielkopolskie",
3005000: "Powiat grodziski_Wielkopolskie"
}
# Update values in "County" column based on values in "Code" column
df['County'] = df['Code'].map(code_to_county)
# Print updated DataFrame
print(df)
结果:
Code County
0 1202000 Powiat brzeski_Malopolskie
1 2402000 Powiat bielski_Slaskie
2 802000 Powiat krośnieński_Lubuskie
3 3017000 Powiat ostrowski_Wielkopolskie
4 3005000 Powiat grodziski_Wielkopolskie
5 9999999 NaN
您可以使用
combine_first
:
In [79]: df['County'] = df['Code'].map(code_to_county).combine_first(df['County'])
In [80]: df
Out[80]:
Code County
0 1202000 Powiat brzeski_Malopolskie
1 2402000 Powiat bielski_Slaskie
2 802000 Powiat krośnieński_Lubuskie
3 3017000 Powiat ostrowski_Wielkopolskie
4 3005000 Powiat grodziski_Wielkopolskie
5 9999999 Powiat ciechanowski