如何使用节对 pandas 数据框中的字符串列进行词形还原?

问题描述 投票:0回答:1

我将 csv 文件读入 pandas 数据框。

我的文本列是 df['story']。

如何对这一列进行词形还原?

我应该之前进行标记化吗?

pandas tokenize lemmatization stanza
1个回答
0
投票

不,您不一定必须在词形还原之前进行标记化。您可以尝试以下代码:

import stanza
import pandas as pd

nlp = stanza.Pipeline(lang='en', processors='tokenize,mwt,pos,lemma')

def lemmatize_text(text):
    doc = nlp(text)
    lemmas = [word.lemma for sent in doc.sentences for word in sent.words]
    return ' '.join(lemmas)

   df['lemmatized_story'] = df['story'].apply(lemmatize_text)
© www.soinside.com 2019 - 2024. All rights reserved.