使用PMI等bigram_measures时何时删除停用词?

问题描述 投票:0回答:1

我需要验证处理从二元测量(例如 PMI)返回的二元停用词的总体方法。为什么要处理这些停用词?好吧,它们是噪音,超过某一点不会增加任何额外价值。

我已经看到了几个如何使用 bigram_measures 的具体示例。然而,我想知道什么时候最好在清理数据、扩展、词形还原/词干提取等整个过程中删除停用词。

是的,我使用的语料库足够大。我记得你的语料库的大小也会影响 bigram_measures 结果的质量。

根据这篇文章中接受的答案(NLTK - 计算二元组的频率),在语料库上使用 PMI 或其他二元组测量后,似乎可以删除停用词。

“想象一下,如果过滤搭配只是删除它们,那么有许多概率度量,例如似然比或 PMI 本身(计算一个单词相对于语料库中其他单词的概率),在删除其中的单词后,它们将无法正常工作。给定语料库中的随机位置。通过从给定的单词列表中删除一些搭配,许多潜在的功能和计算将被禁用......”

因此,我认为最好的流程是:

  1. 清理文本并删除 HTML 标签等垃圾字符
  2. 扩展缩写(例如:they're -> They are)
  3. 词形还原或词干以规范单词
  4. 使用 bigram_measures(如 PMI)计算二元组。您可以使用其他方法计算二元组,但这就是我正在使用的。
  5. 应用“apply_freq_filter(N)”之类的频率过滤器来获取高于阈值的二元组。请注意,这仍然会返回一些二元组,其中停用词与有价值的二元组混合在一起。
  6. 检查这两个词是否都是停用词。如果是,则不要在最终结果中包含该二元组,而是出于上述原因将它们保留在语料库中。

这是处理与有价值的二元词混合的二元停用词的正确整体方法吗?

python nlp nltk
1个回答
3
投票

在进行了额外的研究后,我将在下面提出答案。

一种方法是: - 清理文本 - 扩大收缩 - 词形还原 - 删除停用词 - 运行 PMI 或其他度量来对 n 元语法进行评分。

来源:使用 Python 进行文本分析,第 224 页。

我提供上述来源的目的是为了表明我从哪里收到这个答案,而不是提供一些毫无根据的答案。如果版主认为这是“推荐”,那么我会将其删除。

© www.soinside.com 2019 - 2024. All rights reserved.