python tokenizer 2个单词短语到word2vec模型

问题描述 投票:0回答:1

我正在为word2vec使用python gensim包。

我想在令牌化单词和双字短语上运行模型。我有10,000个文件,我使用nltk Regextoknizer从所有文件中获取单个单词标记。如何对文档进行标记化以获得2个单词的短语。

例如:

文件:“我有一个青苹果”

和2个单词短语:{I_have},{green_apple},...等

python nltk tokenize
1个回答
1
投票

一个选项是使用来自ngramsnltk并设置n = 2这样得到一个元组列表:

from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))
© www.soinside.com 2019 - 2024. All rights reserved.