LDA vs Word2Vec。哪个是预测邮件收件人的正确解决方案？

我正在研究各种NLP算法和工具来解决以下问题; NLP新手在这里，所以请原谅我的问题，如果它太基本了。

比方说，我有一个消息传递应用程序，用户可以向一个或多个人发送短信。当用户键入消息时，我希望应用程序向用户建议消息的潜在收件人是谁？

如果用户“A”向用户“B”发送大量关于“猫”的文本消息，向用户“C”发送一些消息，并向用户“D”发送大量关于“政治”的消息，则下次用户键入关于“猫”的消息然后应用程序应该建议“B”和“C”而不是“D”。

所以我正在做一些关于主题建模和字嵌入的研究，并且看到LDA和Word2Vec是我可以使用的两种可能的算法。

想要选择你认为更适合这种情况的大脑。

我的一个想法是，使用先前消息中的LDA提取主题，并根据过去讨论主题的次数（即发送的消息）对消息的接收者进行排名。如果我有这个主题的映射和你谈论它的用户的排序列表（根据频率排名），那么当用户键入消息时，我可以再次对消息运行主题提取，预测消息的内容然后查找映射以查看谁可以成为可能的收件人并向用户显示。

这是一个好方法吗？或者，Word2Vec（或doc2vec或lda2vec）更适合这个问题，我们可以使用单词嵌入的单词矢量表示来预测类似的消息？我们是否真的需要从邮件中提取主题来预测收件人，还是这里没有必要？您认为其他任何算法或技术都能发挥最佳作用吗？

你有什么想法和建议？

谢谢您的帮助。

0
投票

由于您纯粹关注以前帖子中的主题提取，因此我认为LDA将是更好的选择。 LDA将描述事件的统计关系。单词的语义大多会被忽略（如果你正在寻找那个，那么你可能想重新思考）。但我也建议看一下混合方法。我自己没试过，但看起来很安静。

此外，如果你碰巧尝试了，很想知道你的发现。

0
投票

我认为您正在寻找推荐系统（Netflix电影建议，亚马逊购买建议等）或网络分析（Facebook好友推荐），它们将主题建模作为属性。我会试着打破它们：

网络分析：

FB朋友是网络的节点，其边缘是友谊关系。计算中介中心性，找到节点之间的最短路径，将最短边存储为列表，紧密度中心性是节点之间的长度之和。

推荐系统：

推荐流行的，看用户相似并建议用户可能感兴趣的东西，通过测量指向同一方向的向量之间的天使来计算余弦相似度。

LDA：

文本数据的主题建模器 - 返回感兴趣的主题可以用作上述算法中的嵌套算法。

Word2Vec：

这是构建LDA的一个必要步骤，看起来像这样：单词 - >＃然后324然后计数频率说它在一个句子中出现两次：

这是一句话。

[(1,1), (2,2), (3,1), (4,1), (2,2)]

这是一个神经网络，您可能不得不将其用作预处理步骤。

我希望这有帮助：）