由维基百科建立语料库。ModuleNotFoundError: 没有名为 "gensim "的模块

问题描述 投票:0回答:1

我复制了一个简单的Python脚本 为自然语言处理构建维基百科文本语料库 来建立语料库,使用gensim从文章中剥离所有维基百科标记。这就是cose。

"""
Creates a corpus from Wikipedia dump file.
Inspired by:
https://github.com/panyang/Wikipedia_Word2vec/blob/master/v1/process_wiki.py
"""

import sys
from gensim.corpora import WikiCorpus

    def make_corpus(in_f, out_f):

    """Convert Wikipedia xml dump file to text corpus"""

    output = open(out_f, 'w')
    wiki = WikiCorpus(in_f)

    i = 0
    for text in wiki.get_texts():
        output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
        i = i + 1
        if (i % 10000 == 0):
            print('Processed ' + str(i) + ' articles')
    output.close()
    print('Processing complete!')


if __name__ == '__main__':

    if len(sys.argv) != 3:
        print('Usage: python make_wiki_corpus.py <wikipedia_dump_file> <processed_text_file>')
        sys.exit(1)
    in_f = sys.argv[1]
    out_f = sys.argv[2]
    make_corpus(in_f, out_f)

总之,我得到的错误是:

ModuleNotFoundError: No module named 'gensim'

虽然我已经安装了 gensim 包。

python3 -m pip install gensim

EDIT. 如果我尝试用

pip install -U gensim

我得到的错误是

 ImportError: cannot import name 'SourceDistribution' from 
 'pip._internal.distributions.source' (C:\Users\Standard\Anaconda3\lib\site- 
 packages\pip\_internal\distributions\source\__init__.py)
python gensim
1个回答
1
投票

你没有 gensim 模块安装在您的系统中。

pip install -U gensim

或者从 https:/pypi.python.orgpypigensim.

gensim 取决于 scipynumpy. 您必须在安装之前安装好它们 gensim.

有一个错误 pip 20.0.0. 要么使用升级到20.0.1。

python get-pip.py

或者降级到19.3.1。

python get-pip.py pip==19.3.1
© www.soinside.com 2019 - 2024. All rights reserved.