训练数据中的文档属于LDA中的特定主题

问题描述 投票:0回答:1

我正在研究一个文本数据包含大约10,000个文档的问题。我创建了一个应用程序,如果用户输入一些随机注释,它将显示训练数据中存在的所有类似注释/文档。就像在堆栈溢出中一样,如果您提出问题,它将显示之前提出的所有相关问题。因此,如果有人对如何操作有任何建议,请回答。

其次,我正在尝试LDA(潜在狄利克雷分配)算法,在这里我可以获取新文档所属的主题,但是如何从训练数据中获取相似的文档。另外,我应该如何选择LDA中的num_topics。

[如果有人对LDA以外的算法有任何建议,请告诉我。

python machine-learning nlp lda
1个回答
0
投票

您可以尝试以下操作:

  1. Doc2vec-这是非常流行的word2vec算法的扩展,该算法将单词映射到N维向量空间,以便在文档中紧邻出现的单词在向量空间中紧邻出现。 U可以使用预训练的单词嵌入。了解有关word2vec here的更多信息。 Doc2vec是word2vec的扩展。这将使您能够将每个文档映射到维度N的向量。此后,您可以使用任何距离度量来查找与输入文档最相似的文档。
  2. 移词器的距离-这直接适合您的目的,并且还使用词嵌入。我已经在个人项目之一中使用了它,并取得了非常好的效果。查找更多有关它的信息here

此外,在应用算法之前,请确保应用适当的文本清理。如大小写规范化,停用词删除,标点符号删除等步骤,这实际上取决于您的数据集。了解更多here

我希望这会有所帮助...

© www.soinside.com 2019 - 2024. All rights reserved.