我有一个包含多个列的 Spark 数据框,我想将其中一列的日期解析为单独的列。对于以下两行,预期输出如下:
'www.freelancer/hello/there/I/am/2024/01/03/every/woijf123oijroa.fiow.com'
'www.freelancer/camping/fun/2024/02/14/foijaoijf83747199.1.com'
预计输出日期:
2024/01/03
2024/02/14
df.withColumn('date', split(col('website'), '/')[5])
不起作用,因为正斜杠不遵循设定模式,即使遵循设定模式,输出也会导致两个括号之间的内容,而不是跨多个括号的内容。
尝试使用
locate()
查找日期开始的索引并从该索引中提取 10 个值,但它无法正常工作。