我正在尝试使用以下代码在R tm软件包中使用removeWords:
docs <- tm_map(docs, removeWords, stopwords("english"))
并且我收到以下错误消息:
Error in sort (words, decreasing = TRUE) :
argument "words" is missing, with no default
我在我的语料库上尝试过的所有其他转换均已按预期工作(tolower,removeNumbers,stripWhitespace,removePunctuation等...),但我无法使removeWords正常工作,并且无法在线找到与此特定内容有关的任何内容错误信息。
非常感谢您对可能导致此错误的原因有任何见解。
编辑:我的语料库由全部位于同一文件夹中的html文档组成。我用来测试removeWords转换的代码如下:
setwd(“C:/folder”)
library(RCurl)
library(XML)
library (tm)
library (SnowballC)
docs <- Corpus(DirSource(“C:/folder”))
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, stopwords(“english”))
尝试添加单词以删除单词的功能。
示例:
corpus = tm_map(corpus, removeWords, c("apple", stopwords("english")))