使用NLTK方法,例如对带注释的文本进行标记化

问题描述 投票:0回答:1

说我有注释文本的语料库,其中句子看起来像:

txt = 'red foxes <emotion>scare</emption> me.'

是否有可能使用word_tokenize以这种方式将其标记化,例如:

['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']

我们可以使用其他注释方案:

txt = 'red foxes scare\_EMOTION me'

是否可以使用NLTK做到这一点-目前,我正在解析注释,然后对它们进行带外跟踪,这非常麻烦。

python python-3.x nltk tokenize
1个回答
1
投票

为了获得所需的结果,您不需要nltk

只需运行txt.split()

如果您坚持使用nltk,请签出其他tokenizers

PunktWordTokenizerWhitespaceTokenizer适合。

© www.soinside.com 2019 - 2024. All rights reserved.