Nltk 分词器问题

问题描述 投票:0回答:1
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
dataset['text'] = dataset['text'].apply(lambda word_list: [tokenizer.tokenize(word) for word in word_list])
dataset['text'].head()

上面的代码显示错误

预期的字符串或类似字节的对象,得到“列表”

python nltk nltokenizer
1个回答
0
投票

假设 dataset['text'] 包含字符串,请尝试在代码中进行此更改。如果您的目标是对数据集['text'] 列中的每个单独字符串进行标记,则需要将标记生成器应用于每个字符串,而不是字符串中的每个单词。

dataset['text'] = dataset['text'].apply(lambda text: tokenizer.tokenize(text))
dataset['text'].head()

如果数据集['text']本身是一个列表列表(其中每个内部列表都包含单词),那么我们需要采取另一种方法

© www.soinside.com 2019 - 2024. All rights reserved.