我想知道在哪里可以找到NLTK停用词支持的语言(及其键)的完整列表。
我在https://pypi.org/project/stop-words/中找到了一个列表,但其中没有包含每个国家/地区的键。因此,不清楚是否可以仅通过stopwords.words("Bulgarian")
来检索列表。实际上,这将引发错误。
我在NLTK网站上检查过,有4个文档匹配“停用词”,但都没有描述。https://www.nltk.org/search.html?q=stopwords&check_keywords=yes&area=default
他们的书中也没有说什么:http://www.nltk.org/book/ch02.html#stopwords_index_term
所以,您知道在哪里可以找到密钥列表吗?
首先检查您是否下载了nltk
软件包。如果没有,您可以使用以下下载:
import nltk
nltk.download()
此后,您可以在下面的路径中找到停用词语言文件。
C:/Users/username/AppData/Roming/nltk_data/corpora/stopwords
它支持21种语言(几天前我安装了nltk
,因此该数字必须是最新的)。您可以在
nltk.corpus.stopwords.words('langauage')
os.listdir('/root/nltk_data/corpora/stopwords/')
['hungarian',
'swedish',
'kazakh',
'norwegian',
'finnish',
'arabic',
'indonesian',
'portuguese',
'turkish',
'azerbaijani',
'slovene',
'spanish',
'danish',
'nepali',
'romanian',
'greek',
'dutch',
'README',
'tajik',
'german',
'english',
'russian',
'french',
'italian']