我对机器学习非常陌生,目前我正在构建一个可以预测重复献血者的模型(分类问题)。我有一个数据集,其中包含 25 个特征(性别、身高、年龄、以前的捐赠等)。
但是,这些数据没有被标记。但是,我正在考虑考虑“献血者之前的献血次数与年龄之间的比率”来标记我的数据,并使用阈值来分类献血者是否会回来献血。例如,某捐献者年龄为 25 岁,已捐血 20 次。因此,以前的捐赠次数除以捐赠者的年龄等于 0.8。因此,如果阈值是 0.55,那么我会将此实例标记为 1(这是经常性捐赠者)。 那么,我可以使用这种技术来标记我的数据吗?或者,我应该使用一些无监督学习模型(如聚类)吗?
我从数据集中选择了重要特征,并清理了数据。我现在想训练一个模型,但我有点犹豫是否应该使用无监督学习技术。这是因为有时很难从无监督学习模型的结果中得出意义。
如果您可以获得标记数据,我建议您对分类问题采用监督学习方法,因为它更有可能提供有意义且可解释的结果。