Nltk 分词器问题

问题描述投票：0回答：1

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
dataset['text'] = dataset['text'].apply(lambda word_list: [tokenizer.tokenize(word) for word in word_list])
dataset['text'].head()

上面的代码显示错误

预期的字符串或类似字节的对象，得到“列表”

python nltk nltokenizer

1个回答

0
投票

假设 dataset['text'] 包含字符串，请尝试在代码中进行此更改。如果您的目标是对数据集['text'] 列中的每个单独字符串进行标记，则需要将标记生成器应用于每个字符串，而不是字符串中的每个单词。

dataset['text'] = dataset['text'].apply(lambda text: tokenizer.tokenize(text))
dataset['text'].head()

如果数据集['text']本身是一个列表列表（其中每个内部列表都包含单词），那么我们需要采取另一种方法

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.