Bag of Words（BOW）vs N-gram（sklearn CountVectorizer） - 文本文档分类

Question

据我所知，在Bag Of Words方法中，功能是一组单词及其在文档中的频率计数。另一方面，N-gram，例如unigrams完全相同，但它没有考虑单词出现的频率。

我想使用sklearn和CountVectorizer来实现BOW和n-gram方法。

对于BOW，我的代码如下所示：

CountVectorizer(ngram_range=(1, 1), max_features=3000)

是否足以将'binary'参数设置为True以执行n-gram特征选择？

CountVectorizer(ngram_range=(1, 1), max_features=3000, binary=True)

n-gram比BOW方法有什么优势？

Answer 1

如果将ngram_range参数设置为（m，n），那么它将成为N-gram实现。