我正在阅读excel,它在列中有自由文本。现在从pandas读取该文件之后,我想限制具有文本的列从每行开始只读取N个单词。我尝试了一切,但无法做到。
data [“text”] =我要去学校,我从市场上买了东西。
但我只是想看看5个字。所以它看起来像下面。
data [“text”] =我要上学了。
并且我希望对数据[“text”]列的每一行进行相同的操作。
您的帮助将受到高度赞赏。
def first_k(s: str, k=5) -> str:
s = str(s) # just in case something like NaN tries to sneak in there
first_words = s.split()[:k]
return ' '.join(first_words)
然后,应用功能:
data['text'] = data['text'].apply(first_k)
data["text"] = [' '.join(s.split(' ')[:5]) for s in data["text"].values]