tm包R中的自定义标记生成器无法正常工作

问题描述 投票:1回答:1

请看下面的MWE,自定义标记器不起作用,为什么? tm包版本是0.71

library(tm)

ts <- c("This is a testimonial")
corpDs <- Corpus(VectorSource(ts))

#This is not working
ownTokenizer <- function(x) unlist(strsplit(as.character(x), "i+"))
tdm <- DocumentTermMatrix(corpDs,control=list(tokenize=ownTokenizer))
as.matrix(tdm)

#This is working
ownTokenizer(ts)

输出:

条款

文档证明了这一点

1 1 1

[1]“Th”的“s”“测试”“我的”“al”

谢谢,

托比亚斯

r text tm mining
1个回答
2
投票

我知道这有点陈旧,但也许它仍然有助于其他人:你必须用corpDS <-VCorpus(...)替换corpDS <-Corpus(...)作为TermDocumentMatrix描述中的文档状态,“SimpleCorpus”语料库总是用固定的标记器进行标记化 - 没有经济化 - 对于“语料库”似乎是相同的......

© www.soinside.com 2019 - 2024. All rights reserved.