我混合了带标签的数据和未带标签的数据,这最后一个我想使用半监督学习对其进行分类。假设我已经有一种算法,可以让我在预测训练子样本的标签时获得最高的准确性。我想使用该算法来预测未标记子样本的标签。在半监督学习中,将伪标记的数据添加到标记的(训练)数据中。我只想从伪标记的数据中选择那些被很好分类的概率高于0.8的点,然后重复该过程,直到所有未标记的数据都被伪标记的概率很高为止。我怎样才能做到这一点?是否有代码或内置函数可以帮助我计算出这种可能性?
所有这些算法
AdaBoostClassifier,BaggingClassifier,BayesianGaussianMixture,BernoulliNB,CalibratedClassifierCV,ComplementNB,DecisionTreeClassifier,ExtraTreeClassifier,ExtraTreesClassifier,GaussianMixture,GaussianNB,GaussianProcessClassifier,GradientBoostingClassifier,KNeighborsClassifier,LabelPropagation,LabelSpreading,LinearDiscriminantAnalysis,LogisticRegression,LogisticRegressionCV,MLPClassifier,MultinomialNB,NuSVC,QuadraticDiscriminantAnalysis,RandomForestClassifier,SGDClassifier,SVC,_BConstantLaussPreian
支持一种叫做predict_proba(self,X)的方法,它并不能做到这一点。