当两个数据集重叠并且一组的分布已知时,我如何分离它们

问题描述 投票:0回答:0

我想弄清楚如何将二维数据集聚类成两个类。您可以通过下图查看数据分布。

图(a)显示了数据的散点图分布。如您所见,使用 K-means、SVM 等很容易将数据集聚类为两个类。但是,问题是当 A 组和 B 组相互重叠时。图(b) 显示两个类在父权上被过度应用。幸运的是(?)我知道 A 组的分布,图 (b) 显示了它。而 A 组的每个数据直方图都是已知的,并且它们不会很好地变化。 A组的x和y数据分布如图(d)所示。

我尝试建立一个机器学习模型,通过它我可以在图 (b) 中分离 B 组数据。尽管 A 组和 B 组是混合的,但我认为必须有一种方法来分离这两个数据。谁请让我知道适当的方法。你不必给我确切的解决方案,请给我一些想法,我应该研究什么来解决这个问题。

谢谢。祝大家有美好的一天:)

python machine-learning statistics data-science cluster-analysis
© www.soinside.com 2019 - 2024. All rights reserved.