导入nltk库时找不到语料库/停用词

问题描述 投票:24回答:6

我试图在python 2.7中导入nltk包

  import nltk
  stopwords = nltk.corpus.stopwords.words('english')
  print(stopwords[:10])

运行这个给我以下错误:

LookupError: 
**********************************************************************
Resource 'corpora/stopwords' not found.  Please use the NLTK
Downloader to obtain the resource:  >>> nltk.download()

因此,我打开我的python终端并执行以下操作:

import nltk  
nltk.download()

这给了我:

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml

然而,这似乎并没有停止。再次运行它仍然给我同样的错误。有什么想法出错吗?

python nltk
6个回答
44
投票

您目前正在尝试下载nltk数据中的每个项目,因此这可能需要很长时间。您可以尝试仅下载所需的停用词:

import nltk
nltk.download('stopwords')

12
投票

一些如here提到的Kurt Bourbaki,但在命令行中:

python -m nltk.downloader stopwords

3
投票

您可以在控制台中单独执行此操作。 它会给你一个结果。

import nltk
nltk.download('stopwords')

当我遇到这个问题时,我使用了jupyter控制台。


0
投票

只需在ipython笔记本(或您正在使用的任何其他文本编辑器/ IDE)中运行此命令:

import nltk

nltk.download('stopwords')

它将自动下载stopword文件并将其解压缩到所需的目录中。


0
投票

如果您的PC使用代理进行连接,请尝试以下操作:

import nltk

nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
nltk.download('stopwords')

0
投票

您可以在Python 3的命令行中输入:

python3 -m nltk.downloader stopwords
© www.soinside.com 2019 - 2024. All rights reserved.