如何使用regex_replace替换pyspark数据帧中列的特殊字符

Question

数据框中有一个列批处理。它的值为'9％'，'$ 5'等。

我需要使用regex_replace，它从上面的例子中删除特殊字符，只保留数字部分。

像9和5这样的例子在同一列中分别取代了9％和5美元。

Answer 1

df.withColumn("batch",regexp_replace(col("batch"), "/[^0-9]+/", ""))

Answer 2

你都尝试了些什么？

select regexp_replace("'$5','9%'","[^0-9A-Za-z]","")

Answer 3

你可以使用这个正则表达式：

\W+

\W - 匹配任何非单词字符（等于[^ a-zA-Z0-9_]）