电子邮件分类中有word2vec和KMeans的问题(无论买方还是非买方)

问题描述 投票:-1回答:1

该数据集包含大约1万封电子邮件文本。想法是将它们分为买方或非买方类别。

买方电子邮件具有某些遵循以下模式的标准单词:

  1. 要求报价
  2. 请检查零件的可用性
  3. 请您引述以下内容
  4. 希望收到该零件号的报价
  5. 想为p / n要求报价
  6. 请提供给我以下可用零件的零件和交货时间给我报价
  7. 请告知您是否可以引用以下任何内容

我当前的方法:

  1. [无监督:使用电子邮件文本构建word2vec模型,并使用这些向量训练KMeans。
  2. KMeans的弯头图使过多的簇如7左右(可能需要更多的清理工作才能删除电子邮件中的免责声明和签名,然后再进行处理)
  3. 在大多数情况下,将KMeans放入n = 2个群集可以很好地预测电子邮件是买方还是非买方,因为数据包含许多买方电子邮件,但也很少失败。
  4. 单词'quote'出现在第二个簇中。因此,如果新电子邮件中有引号或类似的单词,则将其分配给第二个群集(买方类别)

对于新句子,我正在从word2vec模型中提取单词向量,并使用它们的TF-IDF分数对向量进行平均,以表示可以从KMeans进行预测的单个向量。

[请提出对当前模型的任何改进或更改,以准确预测买家。

machine-learning nlp k-means word2vec unsupervised-learning
1个回答
0
投票

您有一个“二进制分类”任务。

将word2vec向量平均在一起是一种汇总较长文本的非常粗糙,有损的方法-它实际上可能会丢弃数据中的许多模式,例如表示购买意图的关键短语。

类似地,以无监督的方式检测群集可能会创建与主要关注点分离的组,并且在很大程度上与主要关注点相正交。

因此,您应该首先尝试使用更简单,更直接的技术,从输入到显式分类算法中的单词袋或字符袋语法表示开始。

这将为您提供一个基准级别的有效性,您可以在此基础上尝试其他特征提取或算法变体。

© www.soinside.com 2019 - 2024. All rights reserved.