关于LDA的建议

问题描述 投票:0回答:1

我正在尝试对一堆(约140个)文本文档进行文本分析。在预处理和删除不必要的单词和停用词之后,每个文档具有大约7000个句子(由nlkt的句子标记器确定),并且每个句子平均具有大约17个单词。我的工作是在这些文件中找到隐藏的主题。

我考虑过做主题建模。但是,我无法确定我所拥有的数据是否足以通过LDA获得有意义的结果,或者我还能做些什么。

另外,如何将文本分成不同的文档?是140个文件(每个大约7000 x 17个单词)足够吗?或者我应该将每个句子都视为文件。但是每个文件平均只有17个字;很像推文。

任何的意见都将会有帮助。提前致谢。

python-3.x nlp gensim text-analysis
1个回答
0
投票

我曾经做过类似的工作。这种方法可以使用300个这样的文件。但是,要将其提升到更高的规模,您需要使用spark来复制该方法。

在这里:1)准备TF-IDF矩阵:用术语向量表示文档。为什么不是LDA,因为你需要先提供一些你不了解的主题。如果想要更复杂(比语义更好),你可以使用其他表示文档的方法来尝试word2Vec,GloVe,Google News Vectors等。

2)从上面的TF-IDF准备潜在语义空间。创建LSA使用SVD方法(可以选择kaiser标准来选择维数)。

我们为什么这样做2)?

a)TF-IDF非常稀疏。步骤3(tSne),计算量很大。 b)该LSA可用于创建语义搜索引擎

您可以绕过2)当您的TF-IDF大小非常小但我不认为根据您的情况就是这种情况而且,您没有其他需求,例如对这些文档进行语义搜索。

3)使用tSne(t-随机最近嵌入)来表示3维的文档。准备欧几里德坐标的球形图。

4)迭代地应用K-means以找到最佳簇数。

一旦决定。为每个类别准备单词云。有你的主题。

© www.soinside.com 2019 - 2024. All rights reserved.