我有一个文件,其中包含我认为来自欧洲和拉丁美洲的特殊字符。 我做了 pd.read_csv("file.csv",encoding='iso8859') 它读取了一些特殊字符。但像“œs”这样的字符仍然是“s”,“Àrz”是“rz”。这样的字符有很多。 知道用什么来编码吗?我用的是iso8859、iso8859-1、iso8859-15。 Latin-1、UTF8、UTF16。
您可以在 Pandas 中尝试不同的编码:
encodings_to_try = ['utf-8', 'latin1', 'iso-8859-1', 'iso-8859-15', 'cp1252']
for enc in encodings_to_try:
try:
df = pd.read_csv('file.csv', encoding=enc)
print(f'Successfully read with encoding: {enc}')
break
except:
print(f'Failed with encoding: {enc}')