数据挖掘的最小支持和最小置信度

问题描述 投票:4回答:1

我想知道在挖掘关联规则中是否可以自动确定最小支持和最小置信度?如果是这样的话,任何对资源的提示或指针都会很棒。

data-mining apriori
1个回答
7
投票

是,有一些方法可以自动确定minsup和minconf阈值。

但是首先,让我告诉您一些有关如何选择minsup和minconf参数的信息。选择它们取决于您的数据。

对于最小支持,我对某些数据使用80%。对于其他一些数据,我使用0.05%。这一切都取决于数据集。通常,我从一个较高的值开始,然后减小这些值,直到找到一个可以生成足够模式的值。

对于min。置信,这有点容易,因为它表示您想要的规则置信度。因此通常,我使用60%左右的值,因为我对真正少于60%的时间的规则不感兴趣。但这也取决于数据。

就性能而言,当minsup较高时,您会发现模式更少,算法更快。对于minconf,将其设置为较高时,模式会更少,但可能不会更快,因为许多算法都不使用minconf来修剪搜索空间。因此,显然,设置这些参数还取决于所需的规则数。

如果您不想使用minsup参数,则可以使用top-k关联规则挖掘算法。在这种情况下,您将例如指定k = 1000,并且算法将在给定的最小置信度下发现1000个最频繁的规则。我设计了一种名为TopKRules的此类算法用于关联规则挖掘。您可以从SPMF open-source data mining library下载源代码,它提供了关联规则和模式挖掘算法的许多实现。

自动设置minsup阈值的另一种解决方案是使用数学函数根据您拥有的数据量来设置它。您可以看到我的blog post here作为操作示例。

[其他一些作品试图找到设置minsup和minconf的解决方案。您可以在Google学术搜索中找到它们。

© www.soinside.com 2019 - 2024. All rights reserved.