我有一个包含几百万个条目的数据框,我使用了k-Means聚类,发现一个特定的集群与其他集群有着截然不同的中心。这很有趣。
如何选择属于此群集的条目以进一步调查它们?我们可以选择群集,因为每个群集都是自己的数据帧吗?
你在使用Spark ML还是Spark MLLib?请参阅https://spark.apache.org/docs/latest/ml-clustering.html#k-means中的示例 - predictions对象包含您要查找的内容。
predictions