如何为树冠聚类选择T1和T2阈值？

我正在尝试与K-Means一起实现Canopy聚类算法。我在网上做了一些搜索，说要使用Canopy聚类来获取您的初始起点并输入到K-means中，问题是，在Canopy聚类中，您需要指定2个阈值用于冠层：T1和T2，其中内部阈值中的点与该树冠紧密相关，而较宽阈值中的点与该树冠的相关性较小。如何确定这些阈值或距树冠中心的距离？

问题上下文：

我要解决的问题是，我有一组数字，例如[1,30]或[1,250]，其集合大小约为50。可以有重复的元素，它们也可以是浮点数，例如8、17.5、17.5、23、66，...，我想找到最佳的聚类或一组数字的子集。

因此，如果用K-means进行Canopy聚类是一个不错的选择，那么我的问题仍然存在：如何找到T1，T2值？如果这不是一个好的选择，是否有更好，更简单但有效的算法可以使用？

2
投票

也许天真地，我从某种频谱估计的角度来看问题。假设我有10个向量。我可以计算所有对之间的距离。在这种情况下，我会得到45个这样的距离。将它们绘制成各种距离范围内的直方图。例如。 10个距离介于0.1和0.2之间，5个介于0.2和0.3之间，以此类推，您将了解向量之间的距离如何分布。从此信息中，您可以选择T1和T2（例如，选择它们以便覆盖人口最多的距离范围）。

当然，对于大型数据集来说这是不切实际的-但您可以随机抽样或进行一些采样，以便至少了解T1和T2的情况。使用类似Hadoop的工具，您可以对大量点进行某种先验的频谱估计。如果您要聚类的所有传入数据都以几乎相同的方式分布，则您只需要获取一次T1和T2，然后将它们固定为常量即可用于以后的所有运行。

2
投票

实际上，这是树冠群集的主要问题。选择阈值与实际算法几乎一样困难。特别是高尺寸。对于2D地理数据集，领域专家可以轻松定义距离阈值。但是在高维数据中，可能最好的方法是首先对数据样本运行k均值，然后根据该样本运行选择距离。

问题描述投票：9回答：2

2个回答

最新问题

如何为树冠聚类选择T1和T2阈值？

问题描述 投票：9回答：2

2个回答

最新问题

问题描述投票：9回答：2