我有一个PlainTextCorpusReader,文字是从网络上抓取的招聘广告。我想使用NLTK去除技能。
PlainTextCorpusReader
但是由于读者将单词'C#'标记为'C','#',所以我首先遇到了困难。
我确实想过滤掉停用词和标点符号之类的噪音,所以这是一个问题。
我该如何解决?