说我有注释文本的语料库,其中句子看起来像:
txt = 'red foxes <emotion>scare</emption> me.'
是否有可能使用word_tokenize以这种方式将其标记化,例如:
['red', 'foxes', '<emotion>scare<emotion>', 'me', '.']
我们可以使用其他注释方案:
txt = 'red foxes scare\_EMOTION me'
是否可以使用NLTK做到这一点-目前,我正在解析注释,然后对它们进行带外跟踪,这非常麻烦。
为了获得所需的结果,您不需要nltk
。
只需运行txt.split()
如果您坚持使用nltk
,请签出其他tokenizers。
PunktWordTokenizer
和WhitespaceTokenizer
适合。