主题连贯性(gensim CoherenceModel)也是基于我的语料或外部数据吗?

问题描述 投票:0回答:1

我正在使用LDA对20世纪英语对应语料库进行建模,并且一直使用topic coherence(以及轮廓分数)来评估我的主题。我使用gensim的CoherenceModelc_v的连贯性,在所有我测试的模型中,甚至在定性评估中对我来说最有意义的主题中,我获得的最高分都是0.35分数经过广泛的预处理和超参数比较。

所以我基本上接受了那是我所能得到的最好的,但是为了写这篇文章,我一直在阅读主题的连贯性,我知道这是一条管道,它在模仿人类的判断。但是,我看不到一件事能找到明确的信息:它是完全基于my语料库的计算还是基于某些外部数据?像接受过外部语料库培训的人,可能与我的领域无关?我应该改用u_mass吗?

data-science topic-modeling
1个回答
0
投票

是,除了u_mass,它们都使用外部参考数据集。但是,这可能不是一件坏事,因为那些参考数据集提供了更丰富的信息。

© www.soinside.com 2019 - 2024. All rights reserved.