数据框中有一个列批处理。它的值为'9%','$ 5'等。
我需要使用regex_replace
,它从上面的例子中删除特殊字符,只保留数字部分。
像9和5这样的例子在同一列中分别取代了9%和5美元。
df.withColumn("batch",regexp_replace(col("batch"), "/[^0-9]+/", ""))
你都尝试了些什么?
select regexp_replace("'$5','9%'","[^0-9A-Za-z]","")
你可以使用这个正则表达式:
\W+
\W
- 匹配任何非单词字符(等于[^ a-zA-Z0-9_])