Pyspark:基于字符串的子集删除列

问题描述 投票:0回答:1

我有一个数据框;如下所示

id   1id  id2  ac1  2ac tre tye

我想删除其中包含“ id”和“ ac”的列,并保留其他列

我将如何在pyspark中实现这一目标

尝试过的“选择语句”无效

我应该如何在此对列名称使用regexep?

python dataframe pyspark pyspark-sql
1个回答
0
投票
使用简单的列表理解:

  • 使用选择

    df.select(*[col(c) for c in df.columns if not("id" in c or "ac" in c)]).show()

  • 使用放置

    df.drop(*[c for c in df.columns if "id" in c or "ac" in c]).show()

  • © www.soinside.com 2019 - 2024. All rights reserved.