从大数据帧中查找最新的旅行信息

问题描述 投票:0回答:1

我有一个要求:

我有一个数据帧“ df_input”]],具有20M行,其中包含行程详细信息。列是“ vehicle-no”,“ geolocation”,“ start”,“ end”。对于每个车辆编号,都有多行,每行针对不同的行程具有不同的地理位置。

现在我要创建一个新的数据框df_final

,该数据框将仅具有所有车辆编号的第一条记录。如何有效地做到这一点?

我使用了以下类似内容,需要5多个小时才能完成:

import dfply as dp
from dfply import X
output_df_columns = ["vehicle-no","start", "end", "geolocations"] 
df_final = pd.DataFrame(columns = output_df_columns) #create empty dataframe
unique_vehicle_no = list(df_input["vehicle-no"].unique())
df_input.sort_values(["start"],inplace=True)

for each_vehicle in  unique_vehicle_no:
    df_temp = (df_input >> dp.mask(X.vehicle-no == each_vehicle))
    df_final = df_final.append(df_temp.head(1),ignore_index=True, sort=False)

我有一个要求:我有一个数据帧“ df_input”,其中有20M行,其中包含行程详细信息。列是“车辆编号”,“地理位置”,“开始”,“结束”。对于每个车号,都有...

python-3.x pandas amazon-web-services
1个回答
0
投票

我认为这会解决

© www.soinside.com 2019 - 2024. All rights reserved.