从 github 存储库设置 nltk 数据

问题描述 投票:0回答:1

我正在关注nltk书第1章。我可以安装

nltk
(
import nltk
),但无法通过运行
nltk.download()
下载图书语料库。它给了我
getattrinfo failed
错误。因此,我开始快速浏览章节中的命令,而不执行这些命令,因为给出的大多数示例都需要书籍语料库。

但现在我想尝试

FreqDist
示例

跑步时

FreqDist
,我意识到我还没有完成
from nltk.book import *
。于是,我再次尝试安装图书语料库。现在,我已经筋疲力尽地尝试了各种帖子中给出的不同解决方案来修复导入 nltk 数据时发生的
getattrinfo failed
错误。 (我尝试设置企业代理更改 nltk 下载器源链接以及许多其他内容)

因此,我没有遵循使用 nltk 下载器的路线,而是尝试做一些可能奇怪的事情。我从 https://github.com/nltk/

 
下载了 zip,解压,然后在其中运行
setup.py

现在,当我运行

from nltk.book import *
时,我得到以下输出:

>>> from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
Traceback (most recent call last):
  File "D:\path\Softwares\python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\site-packages\nltk\corpus\util.py", line 63, in __load
    try: root = nltk.data.find('corpora/%s' % zip_name)
  File "D:\path\Softwares\python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\site-packages\nltk\data.py", line 641, in find
    raise LookupError(resource_not_found)
LookupError:
**********************************************************************
  Resource 'corpora/gutenberg.zip/gutenberg/' not found.  Please
  use the NLTK Downloader to obtain the resource:  >>>
  nltk.download()
  Searched in:
    - 'C:\\Users\\593932/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'D:\\path\\Softwares\\python\\WinPython-64bit-3.4.4.4Qt5\\python-3.4.4.amd64\\nltk_data'
    - 'D:\\path\\Softwares\\python\\WinPython-64bit-3.4.4.4Qt5\\python-3.4.4.amd64\\lib\\nltk_data'
    - 'C:\\Users\\593932\\AppData\\Roaming\\nltk_data'
**********************************************************************

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "D:\path\Softwares\python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\site-packages\nltk\book.py", line 20, in <module>
    text1 = Text(gutenberg.words('melville-moby_dick.txt'))
  File "D:\path\Softwares\python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\site-packages\nltk\corpus\util.py", line 99, in __getattr__
    self.__load()
  File "D:\path\Softwares\python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\site-packages\nltk\corpus\util.py", line 64, in __load
    except LookupError: raise e
  File "D:\path\Softwares\python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\site-packages\nltk\corpus\util.py", line 61, in __load
    root = nltk.data.find('corpora/%s' % self.__name)
  File "D:\path\Softwares\python\WinPython-64bit-3.4.4.4Qt5\python-3.4.4.amd64\lib\site-packages\nltk\data.py", line 641, in find
    raise LookupError(resource_not_found)
LookupError:
**********************************************************************
  Resource 'corpora/gutenberg' not found.  Please use the NLTK
  Downloader to obtain the resource:  >>> nltk.download()
  Searched in:
    - 'C:\\Users\\593932/nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - 'D:\\path\\Softwares\\python\\WinPython-64bit-3.4.4.4Qt5\\python-3.4.4.amd64\\nltk_data'
    - 'D:\\path\\Softwares\\python\\WinPython-64bit-3.4.4.4Qt5\\python-3.4.4.amd64\\lib\\nltk_data'
    - 'C:\\Users\\593932\\AppData\\Roaming\\nltk_data'
**********************************************************************
>>>

我手动复制粘贴了

nltk
文件夹,其中还包含
book.py
在上面列出的各个文件夹中:

- 'C:\\Users\\593932/nltk_data'
- 'C:\\nltk_data'
- 'D:\\nltk_data'
- 'E:\\nltk_data'
- 'D:\\path\\Softwares\\python\\WinPython-64bit-3.4.4.4Qt5\\python-3.4.4.amd64\\nltk_data'
- 'D:\\path\\Softwares\\python\\WinPython-64bit-3.4.4.4Qt5\\python-3.4.4.amd64\\lib\\nltk_data'
- 'C:\\Users\\593932\\AppData\\Roaming\\nltk_data'

但是没有用。如何从 github 下载的 zip 中将这本书的内容导入到我的解释器环境中,而不需要使用 nltk 下载器?还可能吗?

python nltk nltk-book
1个回答
0
投票

参见手动安装下的https://www.nltk.org/data.html

创建一个文件夹nltk_data,例如C: ltk_data 或 /usr/local/share/nltk_data 以及子文件夹分块器、语法、misc、情感、标记器、语料库、帮助、模型、词干分析器、分词器。

https://www.nltk.org/nltk_data/ 下载各个软件包(请参阅“下载”链接)。将它们解压缩到适当的子文件夹。例如,位于:https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip的Brown语料库将被解压缩到nltk_data/corpora/brown。

将 NLTK_DATA 环境变量设置为指向顶级 nltk_data 文件夹。

© www.soinside.com 2019 - 2024. All rights reserved.