使用主题模型,我们应该如何设置“停用词”列表?

问题描述 投票:4回答:2

有一些标准的停止列表,可以从语料库中删除“a of of not”之类的单词。但是,我想知道,停止名单是否会逐个变化?

例如,我有一篇来自期刊的10K文章,然后由于文章的结构,基本上你会在每篇文章中看到诸如“介绍,评论,结论,页面”之类的文字。我担心的是:我们应该从语料库中删除这些词吗? (每个文件都有的话?)感谢每一条评论和建议。

stop-words lda topic-modeling text-classification
2个回答
4
投票

我正在研究类似的问题,但文本分类。根据我的经验,最好有一个特定于域的停用词列表以及标准。名单。否则,如果你已经尝试过分析它,那么像“引言”,“评论”等这些词会出现在术语频率矩阵中。它可以通过为这些特定于域的关键字赋予更多权重来误导您的模型。


0
投票

值得考虑的是停止词可能不会像你担心的那样影响你的模型。您是否尝试过删除它们并比较结果?

另见2017年的论文:“拉出停止:重新思考主题模型的删除词。” http://www.cs.cornell.edu/~xanda/stopwords2017.pdf

总之,他们说(释义)删除停用词对LDA模型的质量没有真正的负面影响,如果需要,它们仍然可以在不影响模型的情况下被移除。

或者,您可以自动删除具有高文档频率的单词,即设置单词可以出现的文档数量的阈值(例如50%),并且只删除比停用词更频繁的所有单词。我不认为这会对模型本身产生有意义的影响,但我确信它会加速模型的计算,因为计算的字数较少。

© www.soinside.com 2019 - 2024. All rights reserved.