我正在尝试将数据框中的列从yyyy-MM-dd格式的字符串类型转换为DateType。
我目前正在运行此代码,但它不会更改类型,但它也不会失败-因此,我认为我缺少了相当基本的内容
data.calendar = py.to_date(data.calendar,format =“ DateType”)
我从http://spark.apache.org/docs/2.2.0/api/python/_modules/pyspark/sql/functions.html#to_date获得了这种格式,但是我不确定我缺少什么
谢谢您的帮助!
我认为您的代码要等到您在PySpark数据帧上调用collect才能执行。
尝试:
result = py.to_date(data.calendar, format="DateType").collect()
Spark使用惰性评估,这意味着您可以“排队”要应用于数据框的操作。当您使用诸如
collect
之类的动作时,将执行这些操作。