NLTK停用词可用的语言

问题描述 投票:1回答:2

我想知道在哪里可以找到NLTK停用词支持的语言(及其键)的完整列表。

我在https://pypi.org/project/stop-words/中找到了一个列表,但其中没有包含每个国家/地区的键。因此,不清楚是否可以仅通过stopwords.words("Bulgarian")来检索列表。实际上,这将引发错误。

我在NLTK网站上检查过,有4个文档匹配“停用词”,但都没有描述。https://www.nltk.org/search.html?q=stopwords&check_keywords=yes&area=default

他们的书中也没有说什么:http://www.nltk.org/book/ch02.html#stopwords_index_term

所以,您知道在哪里可以找到密钥列表吗?

python nlp nltk stop-words
2个回答
1
投票

首先检查您是否下载了nltk软件包。如果没有,您可以使用以下下载:

import nltk
nltk.download()

此后,您可以在下面的路径中找到停用词语言文件。

C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords

它支持21种语言(几天前我安装了nltk,因此该数字必须是最新的)。您可以在

中将文件名作为参数传递

nltk.corpus.stopwords.words('langauage')


3
投票
os.listdir('/root/nltk_data/corpora/stopwords/')

['hungarian',
 'swedish',
 'kazakh',
 'norwegian',
 'finnish',
 'arabic',
 'indonesian',
 'portuguese',
 'turkish',
 'azerbaijani',
 'slovene',
 'spanish',
 'danish',
 'nepali',
 'romanian',
 'greek',
 'dutch',
 'README',
 'tajik',
 'german',
 'english',
 'russian',
 'french',
 'italian']
© www.soinside.com 2019 - 2024. All rights reserved.