我有一个数据框,几乎没有分类和数字功能。为此我将文本列的BoW(CountVectorizer)连接起来,产生了超过56,000个特征。所以我正在考虑使用PCA来减少功能数量。
我认为选择正确数量的主成分在这里至关重要,但我对这里要考虑多少n_components感到困惑?
n_components
您可以绘制具有前k个分量和k个分量的方差的图。根据这些分量中包含的方差选择k。95%或以上是理想的。