我正在尝试从twitter帖子中进行情绪分析。我是情绪分析的新手。在文本预处理阶段,我遇到了从twits中删除频繁单词的问题。我想从twits中删除最常用的单词,所以我在twit中计算了最频繁的术语
freq=pd.Series(''.join(traindata['tweet']).split()).value_counts()[:10]
然后我将freq系列转换为列表
freq=list(freq.index)
通过删除常用单词来过滤我的twitter_word列。我使用下面的代码
traindata['tweet']=traindata.apply(lambda x:" ".join(x for x in x.split() if x not in freq))
我有以下错误
文件“C:\ Users \ codemen \ Anaconda3 \ lib \ site-packages \ pandas \ core \ generic.py”,第3614行,在__getattr__返回对象.__ getattribute __(self,name)AttributeError :(“'Series'对象没有属性'split'“,'出现在索引id')
请帮我弄清问题。谢谢
我相信你需要为apply
指定列,否则循环DataFrame
的所有列:
f = lambda x:" ".join(x for x in x.split() if x not in freq)
traindata['tweet'] = traindata['tweet'].apply(f)