我正在研究足球数据集,并且正在处理一些外来名称。我想问一下如何替换数据集中存在的特殊字母?这些是这些“异国”名称的一些示例:
'LionelAndrésMessi Cuccittini','Neymar da Silva Santos Junior','Luis AlbertoSuárezDíaz','David De Gea Quintana','ZlatanIbrahimović'
特殊字母是é,á,ć,等(上面带有“上标”的字母)。我想将它们更改为“基本”形式-ć变成c,á变成a,依此类推。
非常感谢!
您可以尝试这个
for i in range(len(playernames)):
playernames[i] = playernames[i].replace("é", "e")
然后当然加上所有其他字符
您可以尝试:
import unidecode
new_string = unidecode.unidecode(your_string)
您可以使用unidecode软件包:
import unidecode
special_str = [u'Lionel Andrés Messi Cuccittini', u'Neymar da Silva Santos Junior', u'Luis Alberto Suárez Díaz', u'David De Gea Quintana', u'Zlatan Ibrahimović']
for item in special_str:
print(unidecode.unidecode(item))
输出将是:
Lionel Andres Messi Cuccittini
Neymar da Silva Santos Junior
Luis Alberto Suarez Diaz
David De Gea Quintana
Zlatan Ibrahimovic