在机器学习中,这是选择最相关特征的子集来构建数据模型的过程。
我目前正在从事一个小型机器学习项目。该任务处理了成千上万患者的医疗数据。对于每位患者,在同一位置进行了12次测量...
我有一个注释列表(文本),我必须使用一些分类器(输入)进行分类。我正在使用管道来执行此操作,并且执行KFold是因为数据集非常小。我想知道...
我正在尝试做一个篮球项目。在这个项目中,我拥有大量有关过去球员表现的数据。有54个功能。我对...
为什么NaN使用中间值?为什么没有其他类似的意思?使用中位数的背后逻辑是什么?
考虑到每个项目可以有多个主题,我如何将数据集中每个项目的主题转换为特征向量
我有一个包含英文陈述的数据集。每个语句已分配了该语句涉及的多个主题。主题可以是经济,体育,政治,商业,科学,...
关于sklearn中的common_info_classif,因此对于在特征选择方面对random_state的使用感到困惑
我使用了sklearn中的common_info_classif和selectPercentile在数据集中进行特征选择。我发现我可以将random_state设置为0,以确保所选的功能在每个....
假设我有一个由单个表组成的数据集,例如,您可以考虑kaggle上的泰坦尼克号数据集。现在,使用功能工具从中获得最大收益的正确方法是什么? as ...
我有数百个样本,并且已经将它们分为四个不同的类别(集群)。现在,我有兴趣确定将样本分类为不同...的最佳基因集。]]
我有一个相对较大的数据集(600万行,72列),我需要使用逻辑回归进行建模。首先,我使用Python的FeatureAgglomeration减少功能数量。为此,...
[Boruta是R和Python的功能选择包,但只能用于随机森林,请告诉我可以将boruta包用于其他分类算法
我是插入式遗传算法特征选择的新手,并从对虹膜数据集的简单运行开始。我想提取最佳特征,它们的准确性以及模型的总数...
我有一个数据框,并且有一些与该数据框相对应的列名的列表。如何过滤数据框,使它成为列名列表,即我希望数据框的列......>
假设我有代码1 //客户A代码2 //客户B代码3 //共享代码我想在构建期间修改源代码,以便删除1或2的源代码...
我想使用随机森林找到分类问题的最重要特征(我有两个类:0和1)。我创建了模型:rf = randomForest(y〜。,data = df,sampsize = ...
[我正在尝试将tfidf输出的向量与词典特征连接起来,但出现错误:def vectorizer(documents,feature_type ='tfidf'):#document = Excel文件中的行,我传递了整个...
我最近一直在研究不同的过滤器特征选择方法,并注意到有些方法更适合于数值数据(Pearson),有些方法更适合于分类数据(...
我有一个Excel文件,其中包括预测变量和目标/响应数据。我将目标称为“ NEAR”,每个预测变量都有其自己的名称。为了研究特征选择,我使用了这段代码,但是有所改进...
我设法编写了一些代码,使用lightGBM作为我的回归器进行嵌套的交叉验证,并使用sklearn.pipeline包装了所有内容。最终,我现在想进行特征选择(或...
WEKA-使用命令行获取InfoGainAttribute选择输出
[当我使用Weka Explorer通过InfoGainAttribute评估器选择属性时,我在Attribute Selection输出面板中获得了所有功能排名,但是现在我需要对...进行相同的操作...]
我最近在我的数据集中遇到了“奇怪”的观察。在使用20个特征进行XGB建模之后,我绘制了具有最高增益值的前10个特征。结果如下所示:F1 140027.061202 F2 ...