如何为树冠聚类选择T1和T2阈值?

问题描述 投票:9回答:2

我正在尝试与K-Means一起实现Canopy聚类算法。我在网上做了一些搜索,说要使用Canopy聚类来获取您的初始起点并输入到K-means中,问题是,在Canopy聚类中,您需要指定2个阈值用于冠层:T1和T2,其中内部阈值中的点与该树冠紧密相关,而较宽阈值中的点与该树冠的相关性较小。如何确定这些阈值或距树冠中心的距离?

问题上下文:

我要解决的问题是,我有一组数字,例如[1,30]或[1,250],其集合大小约为50。可以有重复的元素,它们也可以是浮点数,例如8、17.5、17.5、23、66,...,我想找到最佳的聚类或一组数字的子集。

因此,如果用K-means进行Canopy聚类是一个不错的选择,那么我的问题仍然存在:如何找到T1,T2值?如果这不是一个好的选择,是否有更好,更简单但有效的算法可以使用?

cluster-analysis subset k-means
2个回答
2
投票

也许天真地,我从某种频谱估计的角度来看问题。假设我有10个向量。我可以计算所有对之间的距离。在这种情况下,我会得到45个这样的距离。将它们绘制成各种距离范围内的直方图。例如。 10个距离介于0.1和0.2之间,5个介于0.2和0.3之间,以此类推,您将了解向量之间的距离如何分布。从此信息中,您可以选择T1和T2(例如,选择它们以便覆盖人口最多的距离范围)。

当然,对于大型数据集来说这是不切实际的-但您可以随机抽样或进行一些采样,以便至少了解T1和T2的情况。使用类似Hadoop的工具,您可以对大量点进行某种先验的频谱估计。如果您要聚类的所有传入数据都以几乎相同的方式分布,则您只需要获取一次T1和T2,然后将它们固定为常量即可用于以后的所有运行。


2
投票

实际上,这是树冠群集的主要问题。选择阈值与实际算法几乎一样困难。特别是高尺寸。对于2D地理数据集,领域专家可以轻松定义距离阈值。但是在高维数据中,可能最好的方法是首先对数据样本运行k均值,然后根据该样本运行选择距离。

© www.soinside.com 2019 - 2024. All rights reserved.