用R组合语料库中的两个词

问题描述 投票:-1回答:1

所以这是我的代码

ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)

iterator <- itoken(ny_texte,
                   preprocessor=tolower, 
                   tokenizer=word_tokenizer, 
                   progressbar=FALSE)

vocabulary <- create_vocabulary(iterator)

我的.csv是纽约时报的文章。我想在词汇表中组合诸如“纽约”,“南非”,“埃利斯岛”之类的单词,而不仅仅是这样的标记:“ new”,“ york”等

我该怎么做?

谢谢

为了更精确:我正在使用这些库

library(text2vec)
library(stopwords)
library(tm)
library(dplyr)
library(readr)
  • 例如关于我的结果
ny[1]

[1“可能举行总统大选的主要州长库莫(Cuomo)宣誓就职除夕,第二任期除夕纽约州首席执行长库莫(Cuomo可能有总统竞选组的总统竞选正在等待翅膀...

r text-mining corpus text2vec
1个回答
0
投票

很难回答您的问题:因为我们没有“ nyt.csv”,因此我们无法运行您的代码。但是gsub()似乎可以满足您的要求:

ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)

(然后从您的示例中运行itoken()create_vocabulary()命令。]

© www.soinside.com 2019 - 2024. All rights reserved.