Tfidf Vectorizer

问题描述 投票:0回答:1

我从文本审阅中获取了一个用于预测情感的数据集,最初,我清理数据(删除标点符号,删除停用词,标记化)。当我尝试将Tokenized数据作为TFIDF矢量化器的输入时,AttributeError:“列表”对象没有属性“较低”。请帮助我克服这个错误。This is my Clean Text

TFIDF Vectorizer

2 [“属性错误”] 2https://i.stack.imgur.com/VSsHu.png

Error

machine-learning data-mining tokenize tfidfvectorizer
1个回答
0
投票

TF-IDF向量化处理原始数据(即未标记化的文本),并自行进行标记化。

fit_transform方法需要字符串的迭代。应用NLTK令牌生成器会将评论字符串转换为字符串列表(令牌列表)。

如果您出于某种原因不信任scikit-learn中的内部标记器,则可以自定义标记器:

fit_transform
© www.soinside.com 2019 - 2024. All rights reserved.