从邮件中获取关键字

问题描述 投票:0回答:1

我的目标是文本摘要,不确定我是否做得正确,但这是计划。我有一个名为train_data的数据框。每行中的每个单元格都包含消息。现在,我希望使用gensim.summarization.keyword包遍历dataframe列中的每个单元格或每个消息,以从每个消息中获取关键字。

我知道关键字函数将文本作为输入,因此我无法传递整个df列,因此尝试将关键字函数上的每个单元格作为文本进行迭代,但似乎不起作用。我在这里想念什么?这是我的代码。

cols = train_data.new_msg
for col in cols:
    cols

train_data['keywords'] = keywords(col)

然后,我计划计算原始消息与新消息的长度(即关键字列),以得出压缩率/比率。

python nlp nltk gensim text-classification
1个回答
0
投票
train_data['keywords'] = train_data['Name of column which contain text'].apply(lambda x: keywords(x).replace('\n', ', '))
© www.soinside.com 2019 - 2024. All rights reserved.