据我所知,在Bag Of Words方法中,功能是一组单词及其在文档中的频率计数。另一方面,N-gram,例如unigrams完全相同,但它没有考虑单词出现的频率。
我想使用sklearn和CountVectorizer来实现BOW和n-gram方法。
对于BOW,我的代码如下所示:
CountVectorizer(ngram_range=(1, 1), max_features=3000)
是否足以将'binary'参数设置为True以执行n-gram特征选择?
CountVectorizer(ngram_range=(1, 1), max_features=3000, binary=True)
n-gram比BOW方法有什么优势?
如果将ngram_range
参数设置为(m,n),那么它将成为N-gram实现。