考虑到每个项目可以有多个主题,我如何将数据集中每个项目的主题转换为特征向量

问题描述 投票:1回答:1

我有一个包含英文陈述的数据集。每个语句已分配了该语句涉及的多个主题。主题可以是经济,体育,政治,商业,科学等。每个声明可以包含多个主题。有些语句可以有1个主题,有些语句可以有2个主题,依此类推。对于语句本身,我正在使用TF-IDF向量将语句转换为特征向量。但是,我很困惑如何将主题转换为用于机器学习训练的特征向量。

python machine-learning feature-extraction feature-selection feature-engineering
1个回答
0
投票

您可以为每个主题创建一个二进制列,该二进制列将显示语句是否具有该主题。

© www.soinside.com 2019 - 2024. All rights reserved.