dtm <- DocumentTermMatrix(docs, control = params)
nchar(rownames(m))中的错误:无效的多字节字符串,元素1
谁知道如何解决此错误?在Rstudio中工作
当您的输入文本未采用UTF-8编码时,就会发生这种情况。您可以阅读有关字符编码here的信息。
另一个很好的参考是this
我发现处理这些问题的最佳方法是使用stringr::str_conv。
stringr::str_conv
mydocs <- c("doc1", "doc2", "doc3") stringr::str_conv(mydocs, "UTF-8")
如果您使用非UTF-8字符,则会收到警告,但另一侧出现的字符向量将可用。
在调用`DocumentTermMatrix之前,对您的docs向量执行此操作。>>
docs