我正在研究一个文本数据包含大约10,000个文档的问题。我创建了一个应用程序,如果用户输入一些随机注释,它将显示训练数据中存在的所有类似注释/文档。就像在堆栈溢出中一样,如果您提出问题,它将显示之前提出的所有相关问题。因此,如果有人对如何操作有任何建议,请回答。
其次,我正在尝试LDA(潜在狄利克雷分配)算法,在这里我可以获取新文档所属的主题,但是如何从训练数据中获取相似的文档。另外,我应该如何选择LDA中的num_topics。
[如果有人对LDA以外的算法有任何建议,请告诉我。
您可以尝试以下操作:
此外,在应用算法之前,请确保应用适当的文本清理。如大小写规范化,停用词删除,标点符号删除等步骤,这实际上取决于您的数据集。了解更多here
我希望这会有所帮助...