我正在尝试在python中实现Multiclass Perceptron。当涉及到多分类时,我已经完全理解了感知器算法的概念,但是仍然对我们应该从训练数据中提供的特征向量感到困惑。
问题仅是文本(文档)分类问题。我试图在文本预处理阶段中使用会标字词频率作为感知器的功能。当我根据每个训练文档中的术语(即,单字)频率为每个文档构建特征时,所构建的特征恰好是稀疏的(文档中出现的每个标记的术语频率,而对于不存在的那些标记则为0发生)。
我的问题是关于替代方案的。有没有更好的构造特征向量的解决方案?
谢谢!