Pandas:如何删除系列中的非字母数字列

问题描述 投票:0回答:1

熊猫系列可能包含无效值:

a     b     c     d      e      f     g 
1    ""   "a3"  np.nan  "\n"   "6"   " "
df = pd.DataFrame([{"a":1, "b":"", "c":"a3", "d":np.nan, "e":"\n", "f":"6", "g":" "}])
row = df.iloc[0]

我想产生一个干净的Series,只保留包含数字值非空非空格字母数字字符串的列:

  • [b应该被删除,因为它是一个空字符串;
  • [d因为np.nan;
  • [eg,因为只有空格的字符串。

预期结果:

a      c     f
1    "a3"   "6"

我如何过滤包含数字或有效字母数字的列?

  • [row.str.isalnum()返回NaNa,而不是我期望的True。
  • [row.astype(str).str.isalnum()dnp.nan更改为字符串"nan",随后将其视为有效的字符串。
  • [row.dropna()当然只丢弃dnp.nan)。

我看不到https://pandas.pydata.org/pandas-docs/stable/reference/series.html列出了太多其他可能性

作为一种解决方法,我可以循环使用items()检查类型和内容,并根据我想保留的值创建一个新的Series,但是这种方法效率低下(而且很丑陋:]

for index, value in row.items():
    print (index, value, type(value))


# a 1 <class 'numpy.int64'>
# b  <class 'str'>
# c a3 <class 'str'>
# d nan <class 'numpy.float64'>
# e 
#  <class 'str'>
# f 6 <class 'str'>
# g   <class 'str'>

是否有任何布尔过滤器可以帮助我挑选出好的列?

python pandas dataframe series
1个回答
0
投票

用途:

row = row[row.astype(str).str.isalnum().fillna(False) & row.notna()]
print (row)
a     1
c    a3
f     6
Name: 0, dtype: object

0
投票

您可以使用正则表达式

row[row.notna() & row.astype(str).str.match('[a-zA-Z0-9]+')]
© www.soinside.com 2019 - 2024. All rights reserved.