我想建立一个预测模型来预测基于他们的年龄,性别和家庭收入学生的辍学率。我与机器学习初学者,希望有所帮助。请让我知道如何与这个继续吗?
你所描述实质上是Churnn预测。
之前,你甚至开始建立你需要确保你有很多labeled data的预测模型的思考。你的情况,你必须有与标有Y / N(0/1),他们是否已经退出,而不是学生多条记录。
Student ID, Age, Gender, Family Income, Dropped Out
1, 15, M, 10000, Y
2, 16, F, 20000, N
3, 14, M, 13000, Y
..
10000, 15, M, 30000, N
如果确实有这样的数据,你可以继续前进,开始构建模型。
Here是博客文章,解释与Scikit,了解构建模型的一般过程,并here是另一篇博客中对Churnn预测与一些Python代码的更多细节。