是否可以从R中的字符串中删除所有副词和代词?

问题描述 投票:0回答:1

我是R的新手。在尝试执行主题建模时,我需要从数据集中删除所有不相关的单词。是否有一个功能可以找到属于语音特定部分的单词?

r nlp statistics topic-modeling
1个回答
0
投票

您可以使用

gsub(pattern, replacement, x)

其中x是您的字符变量,“ pattern”是您要替换的单词,“ replacement”将是“”。但是,R不知道代词是什么。因此,您必须通过用您的字符串所用的语言编写所有可能代词的列表来加以说明。然后,您必须像这样对所有代词(或任何种类的单词)重复代词:] >

x <- "This is a character string in which I tell you how he deleted pronouns."
unwant <- c(
"I", "he", "she", "it",...)
unwanted <- c(paste(" ", unwanted, " ", sep = ""), paste(" ", unwanted, ".", sep = ""), paste(" ", unwanted, "!", sep = ""), paste(" ", unwanted, "?", sep = ""), paste(" ", unwanted, ",", sep = "")
)

result <- x
for(i in 1:NROW(unwanted)){
result <- gsub(unwanted[i], " ", result)
}

print(result)

显然,“ ...”表示您必须插入yu不需要的所有单词,但我想互联网上某处会列出所有代词的列表。编辑:您必须在单词前后插入空格,以便R不会在出现单词的其他单词中切出字母。我是通过paste函数添加的,其中您的代词以多种方式进行了修改,例如如果它们出现在句子结尾。

© www.soinside.com 2019 - 2024. All rights reserved.