将数值和复杂分类数据与随机森林预测模型结合使用

问题描述 投票:0回答:1

我正在尝试使用数值和分类数据创建随机森林预测模型。我知道使用编码,分类数据可以转换为数值数据,但是如果你有复杂的分类数据,你会怎么做?

例如,我有分类数据,这些数据是由人类编写的段落,将其编码为数字数据将非常困难且代价高昂。但是,对这些数据进行分类并考虑让我的模型正常工作非常重要。我也有我的模型可以轻松理解的数值数据,但是,我希望能够同时使用我的复杂分类数据和我的数值数据来训练预测模型。

我尝试使用 One-Hot-Encoding 和其他形式的预处理将我的分类数据转换为可用的数值数据。但是,转换这些数据的效率非常低,而且我的模型很难理解转换后的数据的确切含义。我正在寻找一种方法来同时在分类数据和数值数据上训练我的模型。

是否有一种编码形式可以处理大量文本?还是我走错了路?作为参考,我一直在使用 sklearn 来实现我的随机森林模型。

pandas machine-learning scikit-learn random-forest categorical-data
1个回答
0
投票

看起来您缺少该地区的一些词汇。获得关键字后,您应该能够帮助自己。

我有分类数据,这些数据是由人类编写的段落。

这是自由格式的文本数据,不是分类数据。因此,您需要应用适当的文本预处理方法,而不是分类编码器。

关键字是“词袋”。您必须将文本段落转换为词袋。

在 Scikit-Learn 上下文中,查看特征提取教程。之后,玩

sklearn.feature_extraction.text.CountVectorizer
sklearn.feature_extraction.text.TfidfVectorizer
变形金刚。

© www.soinside.com 2019 - 2024. All rights reserved.