我正在寻找一个带有“真实值”标签的聚类数据集,用于一些已知的自然聚类,最好具有高维度。
我在这里找到了一些不错的候选数据(http://cs.joensuu.fi/sipu/datasets/),但只有 Glass 和 Iris 数据集具有点标签。我还找到了一些生成高斯数据集的代码(SynDECA)。我想要这个的主要原因是比较某些聚类方法的距离度量。很难使用外部(外在)评估标准,因为其中许多标准都偏向于欧几里德距离;而且有很多可供选择。
谢谢!
除了提到的 SIPU 和 UCI ML 存储库之外,以下是其他集群基准聚合器的列表:
UCI 机器学习存储库有许多数据集。