如何使用regex_replace替换pyspark数据帧中列的特殊字符

问题描述 投票:0回答:3

数据框中有一个列批处理。它的值为'9%','$ 5'等。

我需要使用regex_replace,它从上面的例子中删除特殊字符,只保留数字部分。

像9和5这样的例子在同一列中分别取代了9%和5美元。

regex apache-spark dataframe pyspark
3个回答
1
投票
df.withColumn("batch",regexp_replace(col("batch"), "/[^0-9]+/", ""))

0
投票

你都尝试了些什么?

select regexp_replace("'$5','9%'","[^0-9A-Za-z]","")

0
投票

你可以使用这个正则表达式:

\W+

\W - 匹配任何非单词字符(等于[^ a-zA-Z0-9_])

© www.soinside.com 2019 - 2024. All rights reserved.