如何将 Spark DataFrame 转换为 Pandas DataFrame？

Question

在databricks中，我创建了一个spark数据框，需要将其转换为pandas数据框，

 sdf = spark.sql('select * from my_tbl')
 pdf = sdf.toPandas()

但出现错误：

ArrowInvalid: Casting from timestamp[us, tz=America/New_York] to timestamp[ns] would result in out of bounds timestamp: 253402214400000000
File <command-1629564213930490>, line 1
----> 1 pdf=sdf.toPandas()

我只是想知道如何解决这个问题，或者是否有办法通过直接调用 databricks 中的 SQL 来生成 panda 数据框？

Answer 1

数据框示例：

brand  type   Trans_dtt                  code     
CCA_T    A   2020-05-06T00:00:00-04:00   2020C01
CCA_T    B   2013-01-03T00:00:00-05:00   2012X02
CCD_R    A   2020-10-12T00:00:00-01:00   2036T31
CCD_U    A   2020-09-22T00:00:00-01:00   2022T31

Answer 2

您遇到的错误表明时间戳转换存在问题。你可以尝试：

df = sdf.toPandas(timestampFormat='yyyy-MM-dd HH:mm:ss.SSS')

如何将 Spark DataFrame 转换为 Pandas DataFrame？

问题描述投票：0回答：2

2个回答

最新问题

如何将 Spark DataFrame 转换为 Pandas DataFrame？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2