Pyspark - 解析多个正斜杠之间的日期

问题描述 投票:0回答:1

我有一个包含多个列的 Spark 数据框,我想将其中一列的日期解析为单独的列。对于以下两行,预期输出如下:

'www.freelancer/hello/there/I/am/2024/01/03/every/woijf123oijroa.fiow.com'
'www.freelancer/camping/fun/2024/02/14/foijaoijf83747199.1.com'

预计输出日期:

2024/01/03
2024/02/14
  • df.withColumn('date', split(col('website'), '/')[5])
    不起作用,因为正斜杠不遵循设定模式,即使遵循设定模式,输出也会导致两个括号之间的内容,而不是跨多个括号的内容。

  • 尝试使用

    locate()
    查找日期开始的索引并从该索引中提取 10 个值,但它无法正常工作。

python regex date parsing pyspark
1个回答
0
投票

您可以使用以下正则表达式:

20[012]\d/\d{2}/\d{2}

请参阅 regex101.com 上的 演示

© www.soinside.com 2019 - 2024. All rights reserved.