如何解决错误** nchar(rownames(m))中的错误:无效的多字节字符串,元素1 **?

问题描述 投票:0回答:1

创建文档术语矩阵

dtm <- DocumentTermMatrix(docs, control = params)

nchar(rownames(m))中的错误:无效的多字节字符串,元素1

谁知道如何解决此错误?在Rstudio中工作

r lda
1个回答
0
投票

当您的输入文本未采用UTF-8编码时,就会发生这种情况。您可以阅读有关字符编码here的信息。

另一个很好的参考是this

我发现处理这些问题的最佳方法是使用stringr::str_conv

mydocs <- c("doc1", "doc2", "doc3")

stringr::str_conv(mydocs, "UTF-8")

如果您使用非UTF-8字符,则会收到警告,但另一侧出现的字符向量将可用。

在调用`DocumentTermMatrix之前,对您的docs向量执行此操作。>>

© www.soinside.com 2019 - 2024. All rights reserved.