是否有任何工具可以为DBSCAN算法计算分钟数和eps的最佳值?
当前,我使用sklearn库来应用DBSCAN算法
from sklearn.cluster import DBSCAN
我尝试了具有多个分钟数和eps的算法,但没有进行任何计算。
eps
和minpts
都被视为超参数。在给定数据集的情况下,没有算法可以确定这些值的理想值。相反,必须在很大程度上根据您要解决的问题对其进行优化。
有关如何优化的一些想法:
minpts
应随数据集大小的增加而增大。
eps
是一个值,用于处理您要查找的群集的半径。要选择一个值,我们可以执行一种弯腰技术(一种经常用于确定K均值聚类的最佳k
的类似技术)。
[如果有确定的方法来求解最佳值,则会记录在案。目前,我们所能做的就是给出我们最好的预测值。同样,您要解决的问题可能会影响您选择肘点的方式-了解这一点很重要。