无法在熊猫数据帧中正确解码口音

问题描述 投票:0回答:1

我正在尝试通过“获得最多奥运奖牌的柔道运动员”为Dataphile(我的YouTube频道)举办条形图竞赛。这是我的问题:在我的数据集(csv)中,有些运动员的名字带有重音,而我无法正确解码它们。

例如,在第5行的my dataset中,ahtlete的名字是“ AndreasTölzer”。

这是我的代码:

years = [str(y) for y in range(1972,2020, 4)]
sex = ["mens", "womens"]
cat = ["extra-lightweight", "lightweight", "half-lightweight", "half-middleweight", "middleweight", "half-heavyweight", "heavyweight", "open-class"]

df_results = pd.DataFrame(columns=["Athlete"] + years)

all_df = {}

for s in sex: # gets all sexes
    for c in cat: #gets all weight categories
        for y in years: # gets all years with summer olympics
            try:
                all_df[y] = pd.read_csv(r"C:\Users\joris\Coding\judo_olympics\olympics_summer_" + y + "_JUD_" + s + "-" + c +"_final_standings.csv")
                df_med = all_df[y].head(4)[["Athlete"]]
                iter_years = iter(years)
                for w in years:
                    if int(w) >= int(y):
                        df_med.insert(len(df_med.columns), w, 1)
                    else:
                        df_med.insert(len(df_med.columns), w, 0)
                df_results = df_results.append(df_med)
            except FileNotFoundError:
                pass    
df_results = df_results.groupby("Athlete").sum()

df_results.index = df_results.index.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8') # got that from the internet

Here,我们可以看到运动员的名字在输出中没有正确解码。

[我想简单地将带重音符号的字母更改为不带重音符号的相同字母(例如:“é”将变为“ e”)。

我的数据集中不应有其他字母的字母,只有令人讨厌的口音。

[如果您有解决方案,或者需要我的代码中的更多信息,请告诉我。

谢谢!

python pandas dataframe unicode utf
1个回答
0
投票

有一个可用于此目的的python软件包Unidecode。

pip install --user unidecode

然后,在Python中:

>>> from unidecode import unidecode
>>> print(unidecode('Ölfäßchen'))
'Olfasschen'
© www.soinside.com 2019 - 2024. All rights reserved.