我复制了一个简单的Python脚本 为自然语言处理构建维基百科文本语料库 来建立语料库,使用gensim从文章中剥离所有维基百科标记。这就是cose。
"""
Creates a corpus from Wikipedia dump file.
Inspired by:
https://github.com/panyang/Wikipedia_Word2vec/blob/master/v1/process_wiki.py
"""
import sys
from gensim.corpora import WikiCorpus
def make_corpus(in_f, out_f):
"""Convert Wikipedia xml dump file to text corpus"""
output = open(out_f, 'w')
wiki = WikiCorpus(in_f)
i = 0
for text in wiki.get_texts():
output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
i = i + 1
if (i % 10000 == 0):
print('Processed ' + str(i) + ' articles')
output.close()
print('Processing complete!')
if __name__ == '__main__':
if len(sys.argv) != 3:
print('Usage: python make_wiki_corpus.py <wikipedia_dump_file> <processed_text_file>')
sys.exit(1)
in_f = sys.argv[1]
out_f = sys.argv[2]
make_corpus(in_f, out_f)
总之,我得到的错误是:
ModuleNotFoundError: No module named 'gensim'
虽然我已经安装了 gensim
包。
python3 -m pip install gensim
EDIT. 如果我尝试用
pip install -U gensim
我得到的错误是
ImportError: cannot import name 'SourceDistribution' from
'pip._internal.distributions.source' (C:\Users\Standard\Anaconda3\lib\site-
packages\pip\_internal\distributions\source\__init__.py)
你没有 gensim
模块安装在您的系统中。
pip install -U gensim
或者从 https:/pypi.python.orgpypigensim.
gensim
取决于 scipy
和 numpy
. 您必须在安装之前安装好它们 gensim
.
有一个错误 pip 20.0.0
. 要么使用升级到20.0.1。
python get-pip.py
或者降级到19.3.1。
python get-pip.py pip==19.3.1