我们可以通过进行一些特征工程来为未标记的数据集生成标签吗?

问题描述 投票:0回答:1

我对机器学习非常陌生,目前我正在构建一个可以预测重复献血者的模型(分类问题)。我有一个数据集,其中包含 25 个特征(性别、身高、年龄、以前的捐赠等)。

但是,这些数据没有被标记。但是,我正在考虑考虑“献血者之前的献血次数与年龄之间的比率”来标记我的数据,并使用阈值来分类献血者是否会回来献血。例如,某捐献者年龄为 25 岁,已捐血 20 次。因此,以前的捐赠次数除以捐赠者的年龄等于 0.8。因此,如果阈值是 0.55,那么我会将此实例标记为 1(这是经常性捐赠者)。 那么,我可以使用这种技术来标记我的数据吗?或者,我应该使用一些无监督学习模型(如聚类)吗?

我从数据集中选择了重要特征,并清理了数据。我现在想训练一个模型,但我有点犹豫是否应该使用无监督学习技术。这是因为有时很难从无监督学习模型的结果中得出意义。

machine-learning unsupervised-learning supervised-learning feature-engineering
1个回答
0
投票

如果您可以获得标记数据,我建议您对分类问题采用监督学习方法,因为它更有可能提供有意义且可解释的结果。

© www.soinside.com 2019 - 2024. All rights reserved.