即使在导入 nltk 库后,在 kaggle 上提交笔记本时也会出错

问题描述 投票:0回答:3

使用以下代码导入库。

import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('omw-1.4')

但是提交代码后总是出现这个错误,因此无法成功提交。 我也尝试下载

nltk
库,但问题仍然没有得到解决。有人可以帮忙吗?enter image description here

LookupError: 
**********************************************************************
  Resource omw-1.4 not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('omw-1.4')
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load corpora/omw-1.4

  Searched in:
    - '/root/nltk_data'
    - '/opt/conda/nltk_data'
    - '/opt/conda/share/nltk_data'
    - '/opt/conda/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************
python nlp nltk kaggle
3个回答
1
投票

我将此方法用于 sklearn 的 TfidfVectorizer。同样的错误,但没有找到“wordnet”。我认为这个解决方案可以帮助

  1. 在 nltk.download('wordnet') 之后从 PC 上的 kaggle/output 下载 wordnet.zip

  2. 使用数据集标题“语料库”从 PC 中的 kaggle/input 上传 wordnet.zip

  3. 从输入复制路径并将其附加到 nltk

    import nltk
    
    nltk.download("wordnet")
    
    nltk.data.path.append('/kaggle/input')
    

0
投票

这样做,可能会解决问题...

import nltk
nltk.download()

nltk.download('all')

0
投票

如果您遇到 NLTK 在 Kaggle 笔记本中找不到其某些资源(例如 wordnet)的问题,您可能需要手动下载它们并将其解压缩到 NLTK 可以访问的目录中。

这是一个 Python 代码片段,您可以使用它来下载 Wordnet 和停用词资源并将其解压缩到 Kaggle 笔记本的工作目录中:

import nltk
import subprocess

# Download and unzip wordnet
try:
    nltk.data.find('wordnet.zip')
except:
    nltk.download('wordnet', download_dir='/kaggle/working/')
    command = "unzip /kaggle/working/corpora/wordnet.zip -d /kaggle/working/corpora"
    subprocess.run(command.split())
    nltk.data.path.append('/kaggle/working/')

# Now you can import the NLTK resources as usual
from nltk.corpus import wordnet

此代码首先检查 NLTK 的搜索路径中是否已经存在 wordnet 资源。如果没有,它会下载它们,然后将下载的文件解压缩到工作目录的语料库子目录中,这是 NLTK 可以访问的位置。

运行此代码后,您应该能够像往常一样导入 NLTK 资源,而不会遇到 LookupError。

© www.soinside.com 2019 - 2024. All rights reserved.