用R组合语料库中的两个词

Question

所以这是我的代码

ny <- read.csv2("nyt.csv", sep = "\t", header = T)
ny_texte <- as.vector(ny)

iterator <- itoken(ny_texte,
                   preprocessor=tolower, 
                   tokenizer=word_tokenizer, 
                   progressbar=FALSE)

vocabulary <- create_vocabulary(iterator)

我的.csv是纽约时报的文章。我想在词汇表中组合诸如“纽约”，“南非”，“埃利斯岛”之类的单词，而不仅仅是这样的标记：“ new”，“ york”等

我该怎么做？

谢谢

为了更精确：我正在使用这些库

library(text2vec)
library(stopwords)
library(tm)
library(dplyr)
library(readr)

例如关于我的结果

ny[1]

[1“可能举行总统大选的主要州长库莫（Cuomo）宣誓就职除夕，第二任期除夕纽约州首席执行长库莫（Cuomo可能有总统竞选组的总统竞选正在等待翅膀...

vocabularyenter image description here

Answer 1

很难回答您的问题：因为我们没有“ nyt.csv”，因此我们无法运行您的代码。但是gsub()似乎可以满足您的要求：

ny <- read.csv2("nyt.csv", sep = "\t", header = TRUE)
ny <– gsub("new york", "newyork", ny, ignore.case = TRUE)
ny <– gsub("south africa", "southafrica", ny, ignore.case = TRUE)
ny_texte <- as.vector(ny)

（然后从您的示例中运行itoken()和create_vocabulary()命令。]

用R组合语料库中的两个词

问题描述投票：-1回答：1

1个回答

最新问题

用R组合语料库中的两个词

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1