如何在Python中将数据框中的拉丁字符转换为小写?

问题描述 投票:0回答:1

我试图通过使用Python将pandas数据框的一部分修改为小写来转换拉丁大写字符。 CSV 文件将填充字符串。

我尝试过使用

.lower()
.casefold()

输入:

“让我们一起照顾村里的弱势群体,确保他们保持健康。”

预期输出:

让我们大家一起照顾我们村里的弱势群体,确保他们保持健康。

电流输出:

让我们都照顾我们村里的弱势群体,确保他们保持健康。

报价是 CSV 文件中的一个字段。我希望“报价”的内容为小写。

df = pd.read_csv(data_file, encoding='latin-1')
df['Quote'] = df['Quote'].str.lower()

但输出仍然显示大写拉丁字符。

输出:

output

python string dataframe data-manipulation lowercase
1个回答
0
投票

首先:我认为您的输入文本由于编码问题已经包含错误。 “让我们”可能应该是“让我们”。

编码“latin-1”支持大写字母“â”和小写字母“â”和“â”。lower() 确实会产生“â”。但是,我不确定您的输入文本是否确实包含字母“”。更有可能的是某个字符,编码不支持(请参阅我的第一点)并且仅显示为“”。

请注意,使用 ' 符号 (Unicode U+0027) 的文本部分不存在此问题。无论“Let's”部分使用什么符号,您的输入文本的编码都可能不支持。存在多种不同的符号(错误地)用于缩写。

如果使用“utf-8”编码会发生什么? Unicode 支持的符号比 latin-1 多得多。

© www.soinside.com 2019 - 2024. All rights reserved.