如何在lda中改进不同主题的单词分配

问题描述 投票:3回答:1

我正在研究一种不是英语的语言,而且我从不同的来源中删除了数据。我已经完成了我的预处理,如标点符号删除,停用词删除和标记化。现在我想提取特定领域的词典。假设我有与体育,娱乐等相关的数据,我想提取与这些特定领域相关的单词,比如板球等,并将它们放在密切相关的主题中。我尝试使用lda,但我没有得到正确的集群。同样在作为一个主题的一部分的单词的集群中,它也出现在其他主题中。

如何改善我的结果?

 # URDU STOP WORDS REMOVAL
        doc_clean = []
        stopwords_corpus = UrduCorpusReader('./data', ['stopwords-ur.txt'])    
        stopwords = stopwords_corpus.words()
        # print(stopwords)
        for infile in (wordlists.fileids()):
            words = wordlists.words(infile)
            #print(words)


            finalized_words = remove_urdu_stopwords(stopwords, words)
            doc = doc_clean.append(finalized_words)

            print("\n==== WITHOUT STOPWORDS ===========\n")
            print(finalized_words)

            # making dictionary and corpus
        dictionary  = corpora.Dictionary(doc_clean)
        # convert tokenized documents into a document-term matrix
        matrx= [dictionary.doc2bow(text) for text in doc_clean]
        # generate LDA model
        lda = models.ldamodel.LdaModel(corpus=matrx, id2word=dictionary, num_topics=5, passes=10)
        for top in lda.print_topics():
                print("\n===topics from files===\n")
                print (top)
python nltk lda topic-modeling
1个回答
4
投票

LDA及其缺点:LDA的想法是从您的语料库中发现潜在的主题。这种无监督机器学习方法的一个缺点是,您最终会遇到人类难以理解的主题。另一个缺点是,您最有可能会得到一些通用主题,包括出现在每个文档中的单词(如“简介”,“日期”,“作者”等)。第三,你将无法发现那些根本不足够的潜在话题。如果您只有1篇关于板球的文章,则该算法无法识别。

为什么LDA不适合你的情况:你正在寻找像cricket这样的明确主题,你想学习关于板球词汇的东西,对吗?但是,LDA会输出一些主题,你需要识别板球词汇,以确定例如话题5涉及板球。通常,LDA将识别与其他相关主题混合的主题。记住这一点,有三种情况:

  1. 你对板球没什么了解,但你能够确定与板球有关的话题。
  2. 你是板球专家,已经知道板球词汇
  3. 你对板球一无所知,也无法识别LDA产生的语义主题。

在第一种情况下,你会遇到一个问题,你可能会将单词与板球联系在一起,这实际上与板球无关,因为你指望LDA输出提供高质量的主题只关注板球,而不是其他相关主题或通用术语。在第二种情况下,您首先不需要分析,因为您已经知道了板球词汇!第三种情况可能是您依靠计算机来解释主题。但是,在LDA中,您始终依靠人类对输出进行语义解释。

那么该做什么:有一篇名为Targeted Topic Modeling for Focused Analysis (Wang 2016)的论文,它试图找出哪些文件涉及预定义的主题(如板球)。如果你有一个主题列表,你想要获得一些特定主题的词汇(板球,篮球,浪漫喜剧......),一个起点可能是首先确定相关文件然后继续并分析这个词 - 与某个主题相关的文件的分发。

请注意,也许有完全不同的方法可以完全满足您的需求。如果你想留在LDA相关的文献中,我相信我链接的文章是你最好的镜头。

编辑:如果这个答案对你有用,你可能会发现my paper也很有趣。它需要一个标记的学术经济学论文数据集(600多种可能的标签),并尝试各种LDA风格,以获得新学术论文的最佳预测。回购包含我的代码,文档以及论文本身

© www.soinside.com 2019 - 2024. All rights reserved.