哪种数据集最适合这些常见分类器?

问题描述 投票:-2回答:1

哪种数据集最适合朴素贝叶斯? KNN?和决策树?您能否为每个提供一个简单的示例。

我知道决策树更多是二进制分类器,因此它适用于离散值。我想到的一个数据集示例使用决策树解释某人的薪水高低。

data-mining decision-tree knn naivebayes
1个回答
-1
投票

朴素贝叶斯

  • 假定条件独立。
  • 条件上独立的变量会做得更好。
  • 使用文档中不同单词的数量来预测文档类型。
  • 询问问题x给定y和z的概率是多少

KNN

  • 使用半标签数据分类数据。
  • 受监督...需要一些标记数据来分类/聚类
  • 根据距离有多大而聚类。因此,低维数据将趋向于做得更好。 (高维数据使所有内容看起来都靠近在一起)

决策树

  • 在数据上使用树状特征分析可产生更准确的结果。
  • 具有强大决策边界的类特征。如果必须在40个类之间进行选择,则比使用树和每个前一个节点确定对象不是什么要困难,而最后一个节点则专注于区分两个非常接近的选项,这要困难得多。
  • 很难根据fitbit数据确定某人正在执行哪种类型的动作,确定某人是在移动还是在休息很容易。确定是否有人在躺着还是站着还是很容易的。确定移动的人是走路还是“剧烈”运动是很容易的。决定一个运动剧烈的人正在爬楼梯,爬山或跑步并不太糟。等等
© www.soinside.com 2019 - 2024. All rights reserved.