使用PMI等bigram_measures时何时删除停用词？

我需要验证处理从二元测量（例如 PMI）返回的二元停用词的总体方法。为什么要处理这些停用词？好吧，它们是噪音，超过某一点不会增加任何额外价值。

我已经看到了几个如何使用 bigram_measures 的具体示例。然而，我想知道什么时候最好在清理数据、扩展、词形还原/词干提取等整个过程中删除停用词。

是的，我使用的语料库足够大。我记得你的语料库的大小也会影响 bigram_measures 结果的质量。

根据这篇文章中接受的答案（NLTK - 计算二元组的频率），在语料库上使用 PMI 或其他二元组测量后，似乎可以删除停用词。

“想象一下，如果过滤搭配只是删除它们，那么有许多概率度量，例如似然比或 PMI 本身（计算一个单词相对于语料库中其他单词的概率），在删除其中的单词后，它们将无法正常工作。给定语料库中的随机位置。通过从给定的单词列表中删除一些搭配，许多潜在的功能和计算将被禁用......”

因此，我认为最好的流程是：

这是处理与有价值的二元词混合的二元停用词的正确整体方法吗？

3
投票

在进行了额外的研究后，我将在下面提出答案。

一种方法是： - 清理文本 - 扩大收缩 - 词形还原 - 删除停用词 - 运行 PMI 或其他度量来对 n 元语法进行评分。

来源：使用 Python 进行文本分析，第 224 页。

我提供上述来源的目的是为了表明我从哪里收到这个答案，而不是提供一些毫无根据的答案。如果版主认为这是“推荐”，那么我会将其删除。