是否有监督的聚类算法或将先验知识应用于您的聚类的方法?

问题描述 投票:0回答:1

就我而言,我有一个图像中检测到的字母和符号数据集。 [检测到的项目由它们的坐标,类型(字母,数字等),值,方向而不是图像的实际边界框表示。我的目标是使用此数据集将它们分组为不同的“单词”或一般的上下文群体。

到目前为止,我使用DBSCAN算法通过应用经典的无监督聚类获得了不错的结果,但是这仍然在样本的几何距离上受到了很大的限制,因此生成的组不能类似于我想要的“单词”。 因此,我正在寻找一种方法来利用我对所需聚类的“类单词”性质的了解来影响聚类算法的结果。

我认为我可能的方法是创建一个真实和错误群集的数据集,并训练一个SVM模型(或任何分类器)以检测所建议的群集是否正确。但是,为此,我还没有确凿的证据证明我可以训练出足够好的模型来区分好集群和坏集群,而且我发现很难根据其成员的特征有效且一致地表示集群。而且,由于我的“测试数据”将是我所拥有的字母和符号的所有可能组合的很大一部分,因此整个方法似乎有点复杂,以致于无法在没有任何证据或迹象表明最终可以使用的情况下尝试实施它。

总而言之,我的问题是,如果某人以前有过类似任务的经验(在我看来,这听起来很简单,但显然没有)。 您知道任何监督的聚类算法,如果知道,这是表示数据聚类的正确方法,因此您可以用它们有效地训练模型?

任何想法/建议,甚至暗示我可以对其进行研究的地方,都将不胜感激。

python machine-learning cluster-analysis unsupervised-learning supervised-learning
1个回答
0
投票

标准方法是使用树状图。

然后合并分支,只要它们同意您的正面例子并且不违反您的任何负面例子。

© www.soinside.com 2019 - 2024. All rights reserved.