我正在研究一个文本分类器,我想对其进行以下操作
我设法为此创建了一个Pipeline,但我不确定它是否像上面解释的那样运行。
features = FeatureUnion(n_jobs=-1,
[('textcounts', TextCounts())
, Pipeline([
('cleantext', CleanText())
, ('vect', vect)
])
])
pipeline = Pipeline([
('features', features)
, ('clf', clf)
])
实际上,我不确定是否将CountVectorizer应用于已清理的文本或原始文本。有没有办法解决这个问题?谢谢!
FeatureUnion中的步骤将并行应用(因为您允许尽可能多的作业,因为您拥有n_jobs = -1的核心,甚至实际并行)。所以,是的,CountVectorizer将应用于已清理的文本。
我认为this博客文章中的图片非常清楚。
关于“有没有找到方法?”,请参阅my answer here以获得更多问题。