如何处理 pyspark 中的转义字符。尝试用 NULL 替换转义字符
' ' 随机分布在所有列中,我已将所有列中的 ' ' 替换为 NULL
下面是我的示例输入数据
col1,col2,col3,Col4
1,\026\026,abcd026efg,1|\026\026|abcd026efg
2,\026\026,\026\026\026,2|026\026|\026\026\026
3,ad026eg,\026\026,3|ad026eg|\026\026
4,ad026eg,xyad026,4|ad026eg|xyad026
而且,我的输出数据应该是
col1|col2|col3|col4|
1,NULL,abcd026efg,1||abcd026efg|
2,NULL,NULL,2|NULL|NULL|
3,ad026eg,NULL,3|ad026eg|NULL|
4,ad026eg,xyad026,4|ad026eg|xyad026|
注意:Col4 是 col1、col2、col3 的组合列,并带有 |分隔
df.withColumn('col2',F.regexp_replace('col2','\D\d+',None)).show().
This is working but it is replacing all the cell values with NULL.