如何使用R中的tm包从非英语语料库中删除常见单词的结尾

Question

我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本，将它们存储在语料库上，进行了某种形式的清理，但是当我尝试通过删除常见的结尾来获得词干时，我在指定意大利语而不是默认语言（例如英语）时遇到了问题。 >

reviews_corpus <- tm_map(reviews_corpus, removeNumbers)
reviews_corpus <- tm_map(reviews_corpus, removePunctuation)
reviews_corpus <- tm_map(reviews_corpus, stripWhitespace)
reviews_corpus <- tm_map(reviews_corpus, content_transformer(tolower))
reviews_corpus <- tm_map(reviews_corpus, removeWords, stopwords("italian"))
reviews_corpus <- tm_map(reviews_corpus, stemDocument(reviews_corpus, language="italian"))
前五行工作正常，但最后一行R给了我：

Error in UseMethod("stemDocument", x) : 
  no applicable method for 'stemDocument' applied to an object of class "c('VCorpus', 'Corpus')"
所以，我的问题是，如何在语料库上使用stemDocument

，但指定我要使用的语言？

我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本，将它们存储在语料库上，进行了某种清理，但是...

Answer 1

stemDocument中有一个错误。如果您使用英语以外的任何其他语言，它将还原为英语。但是有一种解决方法，可以直接调用stemDocument指向的词干。

如何使用R中的tm包从非英语语料库中删除常见单词的结尾

问题描述投票：0回答：1

1个回答

最新问题

如何使用R中的tm包从非英语语料库中删除常见单词的结尾

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1