如何使用NLTK标记包含标点符号的单词

问题描述 投票:0回答:1

我有一个PlainTextCorpusReader,文字是从网络上抓取的招聘广告。我想使用NLTK去除技能。

但是由于读者将单词'C#'标记为'C','#',所以我首先遇到了困难。

我确实想过滤掉停用词和标点符号之类的噪音,所以这是一个问题。

我该如何解决?

python nltk tokenize
1个回答
0
投票
© www.soinside.com 2019 - 2024. All rights reserved.