过滤包含非ascii值的pandas数据框行

问题描述 投票:1回答:1

我有一列带有地址的列,想查找所有包含“外来”即非ASCII字符的行。

import pandas as pd

df = pd.DataFrame.from_dict({
    'column_name': ["GREENLAND HOTEL, CENTRAL AVENUE, NAGPUR-440 018.", "Møllegade 1234567 DK-6400 Sønderborg Denmark"],
    'column_other': ["0", "1"]
})

预期输出,它将仅显示包含“ø”字符的第二行。

我尝试过:

df['column_name'].str.isascii()

但是在Python 3.6中至少这不起作用。

在MySQL中,我可以做到这一点

SELECT * FROM `table_name` WHERE `column_name`!=CONVERT(`column_name` USING ASCII)

有效。

我有一列带有地址的列,想查找所有包含“外来”(即非ASCII字符)的行。以pd df = pd.DataFrame.from_dict({'column_name':[“ GREENLAND HOTEL,...

python pandas dataframe python-3.6 non-ascii-characters
1个回答
1
投票

不确定性能,但是您可以尝试encode字符串和ignore错误,然后将编码字符串的len与原始字符串进行比较:

© www.soinside.com 2019 - 2024. All rights reserved.