我有这个有关船舶位置的历史数据的数据集
id : the id of the ship
date : the date when the position was recorded (on a daily basis)
size: the size of the ship (categorical with 3 categories)
longitude
latitude
zone : binary (the variable to predict)
destination: The port of destination
heading : a numerical variable indicating the angle of direction of the ship
所以典型的行看起来像
id date size longitude latitude zone destination heading
123 20/04/2017 PMX 26.3565 -15.7474 True NYC 36.7654
基于某些标准,我可以为每艘船意识到它们过去所形成的一组不同轨迹。因此,我创建了一个称为轨迹的新功能。我还创建了一个速度变量,所以我的新数据框看起来像这样
id date size longitude latitude zone destination heading trajectory
123 20/04/2017 PMX 26.3565 -15.7474 True NYC 36.7654 1
123 21/04/2017 PMX 29.3556 -18.7498 True NYC 46.7654 1
123 15/05/2017 PMX 36.8760 12.3449 False CHINA 78.7640 2
... ........ .. ..... ..... .... .... ...... ..
567 13/04/2017 SFD 17.8687 16.8787 False Balb 23.3232 3
我必须对区域执行分类算法,以说出船只在接下来的30天内是否会经过此区域。我读过一些有关DBSCAN聚类的论文,它们使用轨迹之间的一些自定义距离。但这是为了预测位置。所以我想知道是否有更简单的方法来解决这个问题?
对于典型的远洋货轮,30天基本上是一次旅程,有时是两次。