我正在尝试使用来自scikit的k个最近邻居实现在相当大的数据集上学习。问题在于,预测要花很长时间,几乎和没有意义的训练一样长。这是算法的问题,还是scikit learning不是针对大型数据集(不支持GPU)的事实。
有关更多信息,我试图基于x,y,z和物体标签来预测激光雷达的强度。每次激光雷达扫描都有100,000个点,因此我试图预测每个点的强度。
尝试使scikit-learn的KNeighborsClassifier
运行更快的东西:
KNeighborsClassifier
参数:algorithm
,kd_tree
用于低维数据,ball_tree
用于高维数据brute
参数。使用较大的n_jobs
并不一定会使事情变快,有时反之亦然。n_jobs
中的性能已有改进,并且某些尚未合并的优化(v0.22)