有人能解释数据挖掘中分类和聚类之间的区别吗?
如果可以,请举两个例子来理解主要想法。
通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类。
群集尝试对一组对象进行分组,并查找对象之间是否存在某种关系。
在机器学习的背景下,分类是supervised learning,聚类是unsupervised learning。
另请查看维基百科上的Classification和Clustering。
分类 - 预测分类类标签 - 根据训练集和类标签属性中的值(类标签)对数据进行分类(构建模型) - 在分类新数据时使用模型
集群:数据对象的集合 - 在同一集群中彼此相似 - 与其他集群中的对象不同
聚类旨在寻找数据组。 “集群”是一个直观的概念,没有数学上严格的定义。一个集群的成员应该彼此相似,并且与其他集群的成员不同。聚类算法对未标记的数据集Z进行操作,并在其上生成分区。
对于类和类标签,类包含类似的对象,而来自不同类的对象则不同。有些类具有明确的含义,在最简单的情况下是相互排斥的。例如,在签名验证中,签名是真实的或伪造的。真正的类是两者中的一个,无论我们可能无法从特定签名的观察中正确猜测。
从书中的Mahout in Action,我认为它很好地解释了差异:
分类算法与诸如k均值算法的聚类算法相关但仍然非常不同。
分类算法是监督学习的一种形式,与无监督学习相反,后者与聚类算法一起发生。
监督学习算法是给出包含目标变量的期望值的示例的算法。无监督算法没有给出理想的答案,而是必须找到一些合理的算法。
分类:预测离散输出结果=>将输入变量映射为离散类别
热门用例:
聚类:将一组对象分组的任务是使同一组(称为集群)中的对象(在某种意义上)与其他组(集群)中的对象更相似(在某种意义上)
热门用例:
参考文献:
如果您尝试将大量工作表存档到工具架上(基于日期或文件的其他一些规范),那么您就是CLASSIFYING。
如果您要从工作表集创建集群,则意味着工作表之间存在类似的情况。
数据挖掘中有两种定义“监督”和“无监督”。当有人告诉计算机,算法,代码......这个东西就像一个苹果,那东西就像一个橙色,这是监督学习和使用监督学习(如数据集中每个样本的标签)来分类数据,你会得到分类。但另一方面,如果你让计算机找出什么是什么并区分给定数据集的特征,实际上是无监督学习,为了对数据集进行分类,这将被称为聚类。在这种情况下,提供给算法的数据没有标签,算法应该找出不同的类。
聚类是一种对对象进行分组的方法,使具有相似特征的对象聚集在一起,具有不同特征的对象分开。这是用于机器学习和数据挖掘的统计数据分析的常用技术。
分类是一种分类过程,其中根据训练数据集识别,区分和理解对象。分类是一种监督学习技术,其中可以获得训练集和正确定义的观察。
机器学习或人工智能主要通过它执行/实现的任务来感知。
在我看来,通过考虑聚类和分类,他们实现的任务概念可以真正帮助理解两者之间的差异。
聚类是对事物进行分组,而分类则是对事物进行标记。
让我们假设你在一个聚会大厅,所有男人都穿着西装,女人穿着礼服。
现在,你问你的朋友几个问题:
Q1:Heyy,你能帮我分组吗?
您朋友可以给出的可能答案是:
1:他可以根据性别,男性或女性对人进行分组
2:他可以根据自己的衣服对人进行分组,1人穿着其他穿着的礼服
3:他可以根据头发的颜色对人进行分组
4:他可以根据年龄组等对人进行分组等。
他们的朋友可以通过多种方式完成此任务。
当然,您可以通过提供额外的输入来影响他的决策过程,例如:
你能帮我根据性别(或年龄组,头发颜色或着装等)对这些人进行分组。
Q2:
在Q2之前,您需要做一些前期工作。
您必须教导或通知您的朋友,以便他能够做出明智的决定。所以,让我们说你对你的朋友说:
Q2。现在,你指出一个长头发的人问你的朋友 - 这是男人还是女人?
你可以期待的唯一答案是:女人。
当然,在聚会中可能会有长发的男性和短发的女性。但是,根据您提供给朋友的经验,答案是正确的。您可以通过向朋友讲述如何区分两者来进一步改进流程。
在上面的例子中,
Q1代表Clustering实现的任务。
在群集中,您向算法(您的朋友)提供数据(人员)并要求它对数据进行分组。
现在,由算法决定什么是最好的分组方式? (性别,颜色或年龄组)。
同样,您绝对可以通过提供额外输入来影响算法做出的决策。
Q2表示分类实现的任务。
在那里,你给你的算法(你的朋友)一些数据(人),称为训练数据,并让他知道哪些数据对应于哪个标签(男性或女性)。然后将算法指向某些数据,称为测试数据,并要求它确定它是男性还是女性。你的教学越好,它的预测就越好。
第二季度或分类中的前期工作只是训练您的模型,以便它可以学习如何区分。在Clustering或Q1中,这个前期工作是分组的一部分。
希望这有助于某人。
谢谢
一条班轮用于分类:
将数据分类为预定义的类别
一个用于聚类的线程:
将数据分组为一组类别
关键区别:
分类是采用数据并将其放入预定义的类别中,并且在集群中要将数据分组的类别集中,事先是未知的。
结论:
我写了一篇关于同一主题的长篇文章,你可以在这里找到:
分类 - 数据集可以具有不同的组/类。红色,绿色和黑色。分类将尝试查找将它们划分为不同类的规则。
数据集的聚类没有任何类,并且您希望将它们放在某个类/分组中,您进行聚类。上面的紫色圆圈。
如果分类规则不好,您将在测试中进行错误分类,或者您的规则不够正确。 如果聚类不好,你会有很多异常值,即。数据点无法落入任何群集中。
分类和聚类之间的主要区别是:分类是在类标签的帮助下对数据进行分类的过程。另一方面,Clustering类似于分类,但没有预定义的类标签。分类与监督学习相适应。相反,聚类也称为无监督学习。在分类方法中提供训练样本,而在群集训练的情况下不提供训练数据。
希望这会有所帮助!
我相信分类是将数据集中的记录分类为预定义的类,甚至可以随时定义类。我认为它是任何有价值的数据挖掘的先决条件,我喜欢在无人监督的学习中考虑它,即在挖掘数据时不知道他/她在寻找什么,分类是一个很好的起点
另一端的聚类属于监督学习,即知道要查找的参数,它们之间的相关性以及临界水平。我认为这需要对统计和数学有所了解
如果您向任何数据挖掘或机器学习人员提出此问题,他们将使用术语监督学习和无监督学习来解释聚类和分类之间的区别。因此,让我首先向您解释有关监督和无监督的关键词。
监督学习:假设你有一个篮子,里面装满了新鲜水果,你的任务是在同一个地方安排相同类型的水果。假设水果是苹果,香蕉,樱桃和葡萄。所以你已经从你以前的作品中了解到每种水果的形状,因此很容易在同一个地方安排相同类型的水果。在这里,您之前的工作被称为数据挖掘中的训练数据。所以你已经从你训练过的数据中学到了东西,这是因为你有一个响应变量,它告诉你,如果某些水果具有某种特征,那就是葡萄,就像每个水果一样。
您将从训练过的数据中获得此类数据。这种类型的学习称为监督学习。这种类型解决问题属于分类。所以你已经学会了这些东西,这样你就可以自信地工作了。
无人监督:假设你有一个篮子,里面装满了新鲜水果,你的任务是在同一个地方安排相同类型的水果。
这次你不知道有关这些水果的任何事情,你是第一次看到这些水果,所以你将如何安排相同类型的水果。
你首先要做的是你采取水果,你将选择该特定水果的任何物理特征。假设你采取了颜色。
然后你会根据颜色来安排它们,然后这些小组会是这样的。 RED COLOR GROUP:苹果和樱桃水果。 GREEN COLOR GROUP:香蕉和葡萄。所以现在你将采用另一个物理角色作为大小,所以现在这些群体会是这样的。红色和大尺寸:苹果。红色和小尺寸:樱桃果实。绿色和大尺寸:香蕉。绿色和小尺寸:葡萄。工作做得很开心。
在这里你没有学到任何东西,意味着没有火车数据和没有响应变量。这种类型的学习是无监督学习。聚类是在无监督学习下进行的。
+分类:您将获得一些新数据,您必须为它们设置新标签。
例如,公司希望对潜在客户进行分类。当新客户到来时,他们必须确定这是否是将要购买其产品的客户。
+聚类:你会得到一组历史交易,记录谁买了什么。
通过使用群集技术,您可以了解客户的细分。
我相信很多人都听说过机器学习。你们中的十几个人甚至可能知道它是什么。你们中的一些人也可能使用机器学习算法。你看到这是怎么回事?很多人都不熟悉5年后绝对必要的技术。 Siri是机器学习。亚马逊的Alexa是机器学习。广告和购物项目推荐系统是机器学习。让我们尝试用一个2岁男孩的简单类比来理解机器学习。只是为了好玩,我们叫他Kylo Ren
让我们假设Kylo Ren看到了一头大象。他的大脑会告诉他什么?(记住他具有最小的思维能力,即使他是维达的继任者)。他的大脑会告诉他,他看到了一个灰色的大动物。他接下来看到一只猫,他的大脑告诉他,这是一个金色的小动物。最后,他接下来看到了一把轻剑,他的大脑告诉他,这是一个他可以玩的非生命物体!
在这一点上,他的大脑知道军刀与大象和猫不同,因为军刀是可以玩的东西,不会自行移动。即使Kylo不知道什么是可移动的手段,他的大脑也可以解决这个问题。这种简单的现象称为聚类。
机器学习只不过是这个过程的数学版本。许多研究统计数据的人意识到他们可以使一些方程式与大脑工作方式相同。大脑可以聚类相似的物体,大脑可以从错误中学习,大脑可以学会识别物体。
所有这些都可以用统计数据表示,并且基于计算机的这个过程的模拟称为机器学习。为什么我们需要基于计算机的模拟?因为计算机可以比人类大脑更快地完成数学计算。我很想进入机器学习的数学/统计部分但是你不想在没有先清除一些概念的情况下跳进去。
让我们回到Kylo Ren。让我们说Kylo拿起军刀并开始玩它。他不小心碰到了冲锋队,冲锋队受伤了。他不明白发生了什么,继续玩。接下来他打了一只猫,猫受伤了。这次Kylo肯定他做了一件坏事,并试着小心翼翼。但鉴于他糟糕的军刀技能,他击中了大象并且绝对确定他遇到了麻烦。此后他变得非常小心,只有在我们看到Force Awakens时才故意打击他的父亲!
从错误中学习的整个过程可以用方程模拟,其中做错事的感觉由错误或成本表示。这种识别与军刀无关的过程称为分类。聚类和分类是机器学习的绝对基础。让我们来看看它们之间的区别。
Kylo区分动物和光剑,因为他的大脑决定光剑不能自行移动,因此是不同的。该决定仅基于存在的对象(数据),并且未提供外部帮助或建议。与此形成对比的是,Kylo通过首先观察击中物体可以做什么来区分小剑的重要性。决定不是完全基于军刀,而是基于它可以对不同的物体做什么。简而言之,这里有一些帮助。
由于学习上的这种差异,聚类被称为无监督学习方法,而分类被称为监督学习方法。它们在机器学习领域非常不同,并且通常由存在的数据类型决定。获取标记数据(或帮助我们学习的东西,例如在Kylo案例中的冲锋队,大象和猫)通常并不容易,并且当要区分的数据很大时变得非常复杂。另一方面,没有标签的学习可能有它自己的缺点,比如不知道什么是标签。如果Kylo在没有任何例子或帮助的情况下学会小心佩戴军刀,他就不会知道它会做什么。他只会知道不应该这样做。这是一种蹩脚的比喻,但你明白了!
我们刚刚开始使用机器学习。分类本身可以是连续数字的分类或标签的分类。例如,如果Kylo必须对每个冲锋队的高度进行分类,那么会有很多答案,因为高度可以是5.0,5.01,5.011等。但是简单的分类如光剑的类型(红色,蓝色。绿色)答案非常有限。事实上,它们可以用简单的数字表示。红色可以是0,蓝色可以是1,绿色可以是2。
如果您了解基本数学,则知道0,1,2和5.1,5.01,5.011是不同的,分别称为离散数和连续数。离散数的分类称为Logistic回归,连续数的分类称为回归。 Logistic回归也称为分类分类,所以当你在别处读到这个术语时不要混淆
这是机器学习的一个非常基本的介绍。我将在下一篇文章中讨论统计方面的问题。如果我需要更正,请告诉我:)
第二部分海报qazxsw poi。 qazxsw poi
我是数据挖掘的新成员,但正如我的教科书所说,CLASSICIATION应该是监督学习,CLUSTERING无监督学习。监督学习和无监督学习之间的区别可以在here找到。
基于从示例中学习,是否将预定义类分配给新观察。
这是机器学习的关键任务之一。
虽然被普遍认为是“无监督分类”,但却完全不同。
与许多机器学习者将教给你的东西相反,它不是为对象分配“类”,而是没有预先定义它们。对于进行过多分类的人来说,这是非常有限的观点;一个典型的例子,如果你有锤子(分类器),一切看起来像钉子(分类问题)给你。但这也是为什么分类人员没有掌握群集的原因。
相反,将其视为结构发现。群集的任务是在数据中找到您之前不知道的结构(例如,群组)。如果你学到了新东西,聚类就会成功。它失败了,如果你只有你已经知道的结构。
聚类分析是数据挖掘(以及机器学习中的丑小鸭)的关键任务,所以不要听机器学习者解散聚类。
这已经在文献中反复出现,但是无监督学习是不可避免的。它不存在,但它是像“军事情报”那样的矛盾。
要么算法从示例中学习(然后是“监督学习”),要么学习。如果所有聚类方法都是“学习”,则计算数据集的最小值,最大值和平均值也是“无监督学习”。然后任何计算“学习”其输出。因此,“无监督学习”一词完全没有意义,它意味着一切,没有任何意义。
然而,一些“无监督学习”算法确实属于优化类别。例如,k-means是最小二乘优化。这些方法都是统计数据,因此我认为我们不需要将它们标记为“无监督学习”,而应继续将它们称为“优化问题”。它更精确,更有意义。有许多聚类算法不涉及优化,并且不适合机器学习范例。因此,在“无监督学习”的保护伞下停止挤压它们。
有一些与聚类相关的“学习”,但它不是学习的程序。用户应该学习有关其数据集的新内容。
通过群集,您可以使用所需属性对数据进行分组,例如提取的群集的数量,形状和其他属性。而在分类中,组的数量和形状是固定的。大多数聚类算法都将聚类数作为参数。但是,有一些方法可以找出适当数量的集群。
首先,在这之前我会说很多回答,分类是监督学习,而聚类是无监督的。这意味着:
希望能帮助到你!!!