训练数据中的文档属于LDA中的特定主题

问题描述投票：0回答：1

我正在研究一个文本数据包含大约10,000个文档的问题。我创建了一个应用程序，如果用户输入一些随机注释，它将显示训练数据中存在的所有类似注释/文档。就像在堆栈溢出中一样，如果您提出问题，它将显示之前提出的所有相关问题。因此，如果有人对如何操作有任何建议，请回答。

其次，我正在尝试LDA（潜在狄利克雷分配）算法，在这里我可以获取新文档所属的主题，但是如何从训练数据中获取相似的文档。另外，我应该如何选择LDA中的num_topics。

[如果有人对LDA以外的算法有任何建议，请告诉我。

python machine-learning nlp lda

1个回答

0
投票

您可以尝试以下操作：

Doc2vec-这是非常流行的word2vec算法的扩展，该算法将单词映射到N维向量空间，以便在文档中紧邻出现的单词在向量空间中紧邻出现。 U可以使用预训练的单词嵌入。了解有关word2vec here的更多信息。 Doc2vec是word2vec的扩展。这将使您能够将每个文档映射到维度N的向量。此后，您可以使用任何距离度量来查找与输入文档最相似的文档。
移词器的距离-这直接适合您的目的，并且还使用词嵌入。我已经在个人项目之一中使用了它，并取得了非常好的效果。查找更多有关它的信息here

此外，在应用算法之前，请确保应用适当的文本清理。如大小写规范化，停用词删除，标点符号删除等步骤，这实际上取决于您的数据集。了解更多here

我希望这会有所帮助...

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.