如何使用纬度和经度在 PySpark 数据框中创建新的形状点列

问题描述 投票:0回答:0

我有一个用例,数据看起来像这样

TS     |    Lat   | Lon 
____________________________
1      |    20.2  |   78.3 
2      |    20.3  |   78.4
3      |    20.4  |   78.4
4      |    20.5  |   78.4
5      |    20.6  |   78.4

我正在使用 pyspark 数据帧,由于较大数据帧的性能问题,没有使用 pandas 的范围。我正在 pyspark 中寻找解决方案。

我想要这样的输出,创建一个包含匀称点的列。

from shapely.geometry import Point

TS     |    Lat   | Lon      |  Point
__________________________________________________
1      |    20.2  |   78.3   | Point (20.2 ,78.3) 
2      |    20.3  |   78.4   | Point (20.3 ,78.4)
3      |    20.4  |   78.4   | Point (20.4 ,78.5)
4      |    20.5  |   78.4   | Point (20.5 ,78.6)
5      |    20.6  |   78.4   | Point (20.6 ,78.7)

如何做到这一点?请帮助

python dataframe apache-spark pyspark shapely
© www.soinside.com 2019 - 2024. All rights reserved.