Pyspark：基于字符串的子集删除列

Question

我有一个数据框；如下所示

id   1id  id2  ac1  2ac tre tye

我想删除其中包含“ id”和“ ac”的列，并保留其他列

我将如何在pyspark中实现这一目标

尝试过的“选择语句”无效

我应该如何在此对列名称使用regexep？

Answer 1

使用简单的列表理解：

使用选择
df.select(*[col(c) for c in df.columns if not("id" in c or "ac" in c)]).show()

使用放置

df.drop(*[c for c in df.columns if "id" in c or "ac" in c]).show()