该数据集包含大约1万封电子邮件文本。想法是将它们分为买方或非买方类别。
买方电子邮件具有某些遵循以下模式的标准单词:
我当前的方法:
对于新句子,我正在从word2vec模型中提取单词向量,并使用它们的TF-IDF分数对向量进行平均,以表示可以从KMeans进行预测的单个向量。
[请提出对当前模型的任何改进或更改,以准确预测买家。
您有一个“二进制分类”任务。
将word2vec向量平均在一起是一种汇总较长文本的非常粗糙,有损的方法-它实际上可能会丢弃数据中的许多模式,例如表示购买意图的关键短语。
类似地,以无监督的方式检测群集可能会创建与主要关注点分离的组,并且在很大程度上与主要关注点相正交。
因此,您应该首先尝试使用更简单,更直接的技术,从输入到显式分类算法中的单词袋或字符袋语法表示开始。
这将为您提供一个基准级别的有效性,您可以在此基础上尝试其他特征提取或算法变体。