电子邮件分类中有word2vec和KMeans的问题（无论买方还是非买方）

该数据集包含大约1万封电子邮件文本。想法是将它们分为买方或非买方类别。

买方电子邮件具有某些遵循以下模式的标准单词：

我当前的方法：

对于新句子，我正在从word2vec模型中提取单词向量，并使用它们的TF-IDF分数对向量进行平均，以表示可以从KMeans进行预测的单个向量。

[请提出对当前模型的任何改进或更改，以准确预测买家。

0
投票

您有一个“二进制分类”任务。

将word2vec向量平均在一起是一种汇总较长文本的非常粗糙，有损的方法-它实际上可能会丢弃数据中的许多模式，例如表示购买意图的关键短语。

类似地，以无监督的方式检测群集可能会创建与主要关注点分离的组，并且在很大程度上与主要关注点相正交。

因此，您应该首先尝试使用更简单，更直接的技术，从输入到显式分类算法中的单词袋或字符袋语法表示开始。

这将为您提供一个基准级别的有效性，您可以在此基础上尝试其他特征提取或算法变体。