关于LDA的建议

我正在尝试对一堆（约140个）文本文档进行文本分析。在预处理和删除不必要的单词和停用词之后，每个文档具有大约7000个句子（由nlkt的句子标记器确定），并且每个句子平均具有大约17个单词。我的工作是在这些文件中找到隐藏的主题。

我考虑过做主题建模。但是，我无法确定我所拥有的数据是否足以通过LDA获得有意义的结果，或者我还能做些什么。

另外，如何将文本分成不同的文档？是140个文件（每个大约7000 x 17个单词）足够吗？或者我应该将每个句子都视为文件。但是每个文件平均只有17个字;很像推文。

任何的意见都将会有帮助。提前致谢。

0
投票

我曾经做过类似的工作。这种方法可以使用300个这样的文件。但是，要将其提升到更高的规模，您需要使用spark来复制该方法。

在这里：1）准备TF-IDF矩阵：用术语向量表示文档。为什么不是LDA，因为你需要先提供一些你不了解的主题。如果想要更复杂（比语义更好），你可以使用其他表示文档的方法来尝试word2Vec，GloVe，Google News Vectors等。

2）从上面的TF-IDF准备潜在语义空间。创建LSA使用SVD方法（可以选择kaiser标准来选择维数）。

我们为什么这样做2）？

a）TF-IDF非常稀疏。步骤3（tSne），计算量很大。 b）该LSA可用于创建语义搜索引擎

您可以绕过2）当您的TF-IDF大小非常小但我不认为根据您的情况就是这种情况而且，您没有其他需求，例如对这些文档进行语义搜索。

3）使用tSne（t-随机最近嵌入）来表示3维的文档。准备欧几里德坐标的球形图。

4）迭代地应用K-means以找到最佳簇数。