所以这是我的代码
ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)
iterator <- itoken(ny_texte,
preprocessor=tolower,
tokenizer=word_tokenizer,
progressbar=FALSE)
vocabulary <- create_vocabulary(iterator)
我的.csv是纽约时报的文章。我想在词汇表中组合诸如“纽约”,“南非”,“埃利斯岛”之类的单词,而不仅仅是这样的标记:“ new”,“ york”等
我该怎么做?
谢谢
为了更精确:我正在使用这些库
library(text2vec)
library(stopwords)
library(tm)
library(dplyr)
library(readr)
ny[1]
[1“可能举行总统大选的主要州长库莫(Cuomo)宣誓就职除夕,第二任期除夕纽约州首席执行长库莫(Cuomo可能有总统竞选组的总统竞选正在等待翅膀...
vocabulary
enter image description here很难回答您的问题:因为我们没有“ nyt.csv”,因此我们无法运行您的代码。但是gsub()
似乎可以满足您的要求:
ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)
(然后从您的示例中运行itoken()
和create_vocabulary()
命令。]