机器学习 - 分类或聚类

问题描述 投票:-1回答:2

我是新来的机器学习和有我想解决,看看是否任何人有什么类型的算法将是最好的任何想法的一个问题。我不是在寻找的代码,而是一个过程。

问题:我的人归类为2类:高风险和低风险。 (这是一个非常基本的出发点和我学习如何分类更加详细,我将展开)

每个人都有11个变量我在看和每个变量都具有二进制值(0表示没有,1是)。变量就像已经结婚了,gun_owner,home_owner等,所以我推测每个人都可以有这些变量的2 ^ 11或2048个不同的组合。

我有这方面的资料数据集,然后将结果(无论他们是否犯了罪)。我想这个数据将被用于训练算法然后可以对高危人群的预测。

有没有人有什么是最好的算法什么想法?既然有这么多的变数,我有更多的麻烦试图找出什么可能工作的赌注。

python machine-learning
2个回答
1
投票

这是一个二元分类问题,其中每个输入长度11的二进制串有针对此问题的许多算法。最简单的是朴素贝叶斯模型(https://en.wikipedia.org/wiki/Naive_Bayes_classifier)。您也可以尝试一些线性分类,如logistic回归或SVM。他们既为线性可分数据和二元分类工作。


0
投票

好像你要基于一些功能进行分类的人。它看起来像一个简单的二元分类问题。然而,这是不是很清楚,如果你有数据标记与否。

所以,第一个问题是,在你的数据集,你知道哪些人是“高风险”和人是“低风险”?如果你有这些信息,你可以用一大堆机器学习模型的这个分类任务。

但是,如果标签不存在(“高风险”或“低风险”),你不能这样做。然后,你必须思考一些无监督的学习方法(集群)。希望这回答了你的问题。

© www.soinside.com 2019 - 2024. All rights reserved.