Bag of Words(BOW)vs N-gram(sklearn CountVectorizer) - 文本文档分类

问题描述 投票:0回答:1

据我所知,在Bag Of Words方法中,功能是一组单词及其在文档中的频率计数。另一方面,N-gram,例如unigrams完全相同,但它没有考虑单词出现的频率。

我想使用sklearn和CountVectorizer来实现BOW和n-gram方法。

对于BOW,我的代码如下所示:

CountVectorizer(ngram_range=(1, 1), max_features=3000)

是否足以将'binary'参数设置为True以执行n-gram特征选择?

CountVectorizer(ngram_range=(1, 1), max_features=3000, binary=True)

n-gram比BOW方法有什么优势?

python scikit-learn feature-extraction feature-selection n-gram
1个回答
0
投票

如果将ngram_range参数设置为(m,n),那么它将成为N-gram实现。

© www.soinside.com 2019 - 2024. All rights reserved.