确定scikit的n_features值学习FeatureHasher

问题描述 投票:-1回答:1

我有一个具有4000个独特级别的分类列。

当使用sklearn.feature_extraction.FeatureHasher进行编码时,该列应该是n_features值以避免冲突。

machine-learning scikit-learn feature-extraction
1个回答
0
投票

n_features应尽可能大,以避免碰撞。您是否有可能计算所有4000个级别的所有唯一值?如果是,您可以将n_features设置为此值。将n_features设置为非常大的值可能会占用大量RAM。通常n ^features在2 ^ 28到2 ^ 32之间就足够了

© www.soinside.com 2019 - 2024. All rights reserved.