我正在为word2vec使用python gensim包。
我想在令牌化单词和双字短语上运行模型。我有10,000个文件,我使用nltk Regextoknizer从所有文件中获取单个单词标记。如何对文档进行标记化以获得2个单词的短语。
例如:
文件:“我有一个青苹果”
和2个单词短语:{I_have},{green_apple},...等
一个选项是使用来自ngrams
的nltk
并设置n = 2这样得到一个元组列表:
from nltk import ngrams
n = 2
bigram_list = list(ngrams(document.split(), n))