创建具有4M行的语料库和DTM的更有效方法

问题描述 投票:13回答:4

我的文件有超过4M的行,我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵,以便我可以将它传递给贝叶斯分类器。

请考虑以下代码:

library(tm)

GetCorpus <-function(textVector)
{
  doc.corpus <- Corpus(VectorSource(textVector))
  doc.corpus <- tm_map(doc.corpus, tolower)
  doc.corpus <- tm_map(doc.corpus, removeNumbers)
  doc.corpus <- tm_map(doc.corpus, removePunctuation)
  doc.corpus <- tm_map(doc.corpus, removeWords, stopwords("english"))
  doc.corpus <- tm_map(doc.corpus, stemDocument, "english")
  doc.corpus <- tm_map(doc.corpus, stripWhitespace)
  doc.corpus <- tm_map(doc.corpus, PlainTextDocument)
  return(doc.corpus)
}

data <- data.frame(
  c("Let the big dogs hunt","No holds barred","My child is an honor student"), stringsAsFactors = F)

corp <- GetCorpus(data[,1])

inspect(corp)

dtm <- DocumentTermMatrix(corp)

inspect(dtm)

输出:

> inspect(corp)
<<VCorpus (documents: 3, metadata (corpus/indexed): 0/0)>>

[[1]]
<<PlainTextDocument (metadata: 7)>>
let big dogs hunt

[[2]]
<<PlainTextDocument (metadata: 7)>>
 holds bar

[[3]]
<<PlainTextDocument (metadata: 7)>>
 child honor stud
> inspect(dtm)
<<DocumentTermMatrix (documents: 3, terms: 9)>>
Non-/sparse entries: 9/18
Sparsity           : 67%
Maximal term length: 5
Weighting          : term frequency (tf)

              Terms
Docs           bar big child dogs holds honor hunt let stud
  character(0)   0   1     0    1     0     0    1   1    0
  character(0)   1   0     0    0     1     0    0   0    0
  character(0)   0   0     1    0     0     1    0   0    1

我的问题是,我可以用什么来更快地创建语料库和DTM?如果我使用超过300k行,它似乎非常慢。

我听说我可以使用data.table,但我不确定如何。

我也查看了qdap包,但是在尝试加载包时它给了我一个错误,而且我甚至不知道它是否会起作用。

参考。 http://cran.r-project.org/web/packages/qdap/qdap.pdf

r data.table corpus term-document-matrix qdap
4个回答
12
投票

我想你可能想要考虑一个更加正则表达式的解决方案。这些是我作为开发人员正在努力解决的一些问题/想法。我目前正在大力研究stringi包的开发,因为它有一些一致命名的函数,这些函数对字符串操作很快。

在这个回答中,我试图使用我所知道的任何工具比tm可能给我们的更方便的方法更快(当然比qdap快得多)。在这里,我甚至没有探索并行处理或data.table / dplyr,而是专注于使用stringi进行字符串操作,并将数据保存在矩阵中,并使用旨在处理该格式的特定包进行操作。我举了你的例子并将其乘以100000x。即使使用词干,我的机器也需要17秒。

data <- data.frame(
    text=c("Let the big dogs hunt",
        "No holds barred",
        "My child is an honor student"
    ), stringsAsFactors = F)

## eliminate this step to work as a MWE
data <- data[rep(1:nrow(data), 100000), , drop=FALSE]

library(stringi)
library(SnowballC)
out <- stri_extract_all_words(stri_trans_tolower(SnowballC::wordStem(data[[1]], "english"))) #in old package versions it was named 'stri_extract_words'
names(out) <- paste0("doc", 1:length(out))

lev <- sort(unique(unlist(out)))
dat <- do.call(cbind, lapply(out, function(x, lev) {
    tabulate(factor(x, levels = lev, ordered = TRUE), nbins = length(lev))
}, lev = lev))
rownames(dat) <- sort(lev)

library(tm)
dat <- dat[!rownames(dat) %in% tm::stopwords("english"), ] 

library(slam)
dat2 <- slam::as.simple_triplet_matrix(dat)

tdm <- tm::as.TermDocumentMatrix(dat2, weighting=weightTf)
tdm

## or...
dtm <- tm::as.DocumentTermMatrix(dat2, weighting=weightTf)
dtm

16
投票

Which approach?

data.table绝对是正确的选择。正则表达式操作很慢,尽管stringi中的那些操作要快得多(除了更好)。任何与

我为我的quanteda包创建了quanteda::dfm(),经历了许多迭代解决问题(参见GitHub repo here)。到目前为止,最快的解决方案是使用data.tableMatrix包来索引文档和标记化的特征,计算文档中的特征,并将结果直接插入稀疏矩阵。

在下面的代码中,我已经找到了使用quanteda软件包找到的示例文本,您可以(并且应该!)从CRAN或开发版本安装

devtools::install_github("kbenoit/quanteda")

我很想知道它对你的4m文件是如何工作的。根据我使用该大小语料库的经验,它可以很好地工作(如果你有足够的内存)。

请注意,在我的所有分析中,由于它们用C ++编写的方式,我无法通过任何类型的并行化来提高data.table操作的速度。

Core of the quanteda dfm() function

以下是基于data.table的源代码的简单骨骼,以防任何人想要改进它。它输入一个表示标记化文本的字符向量列表。在quanteda包中,功能齐全的dfm()直接在文档或语料库对象的字符向量上工作,默认情况下实现小写,删除数字和删除间距(但如果愿意,这些都可以修改)。

require(data.table)
require(Matrix)

dfm_quanteda <- function(x) {
    docIndex <- 1:length(x)
    if (is.null(names(x))) 
        names(docIndex) <- factor(paste("text", 1:length(x), sep="")) else
            names(docIndex) <- names(x)

    alltokens <- data.table(docIndex = rep(docIndex, sapply(x, length)),
                            features = unlist(x, use.names = FALSE))
    alltokens <- alltokens[features != ""]  # if there are any "blank" features
    alltokens[, "n":=1L]
    alltokens <- alltokens[, by=list(docIndex,features), sum(n)]

    uniqueFeatures <- unique(alltokens$features)
    uniqueFeatures <- sort(uniqueFeatures)

    featureTable <- data.table(featureIndex = 1:length(uniqueFeatures),
                               features = uniqueFeatures)
    setkey(alltokens, features)
    setkey(featureTable, features)

    alltokens <- alltokens[featureTable, allow.cartesian = TRUE]
    alltokens[is.na(docIndex), c("docIndex", "V1") := list(1, 0)]

    sparseMatrix(i = alltokens$docIndex, 
                 j = alltokens$featureIndex, 
                 x = alltokens$V1, 
                 dimnames=list(docs=names(docIndex), features=uniqueFeatures))
}

require(quanteda)
str(inaugTexts)
## Named chr [1:57] "Fellow-Citizens of the Senate and of the House of Representatives:\n\nAmong the vicissitudes incident to life no event could ha"| __truncated__ ...
## - attr(*, "names")= chr [1:57] "1789-Washington" "1793-Washington" "1797-Adams" "1801-Jefferson" ...
tokenizedTexts <- tokenize(toLower(inaugTexts), removePunct = TRUE, removeNumbers = TRUE)
system.time(dfm_quanteda(tokenizedTexts))
##  user  system elapsed 
## 0.060   0.005   0.064 

这只是一个片段,但完整的源代码很容易在GitHub repo(dfm-main.R)上找到。

quanteda on your example

为简单起见,这是怎么回事?

require(quanteda)
mytext <- c("Let the big dogs hunt",
            "No holds barred",
            "My child is an honor student")
dfm(mytext, ignoredFeatures = stopwords("english"), stem = TRUE)
# Creating a dfm from a character vector ...
# ... lowercasing
# ... tokenizing
# ... indexing 3 documents
# ... shaping tokens into data.table, found 14 total tokens
# ... stemming the tokens (english)
# ... ignoring 174 feature types, discarding 5 total features (35.7%)
# ... summing tokens by document
# ... indexing 9 feature types
# ... building sparse matrix
# ... created a 3 x 9 sparse dfm
# ... complete. Elapsed time: 0.023 seconds.

# Document-feature matrix of: 3 documents, 9 features.
# 3 x 9 sparse Matrix of class "dfmSparse"
# features
# docs    bar big child dog hold honor hunt let student
# text1   0   1     0   1    0     0    1   1       0
# text2   1   0     0   0    1     0    0   0       0
# text3   0   0     1   0    0     1    0   0       1

2
投票

你有几个选择。 @TylerRinker评论了qdap,肯定是a way

或者(或另外),您也可以从健康的并行性中受益。有一个很好的CRAN页面详细介绍了R中的HPC资源。虽然有点过时了,但multicore软件包的功能现在包含在parallel中。

您可以使用qazxsw poi包的多核qazxsw poi函数或集群计算(也由apply以及parallelthat package支持)扩展文本挖掘。

另一种方法是采用snowfall方法。关于将bioparaMapReduce结合起来用于大数据的精彩演示可以使用tm。虽然该演示文稿已有几年历史,但所有信息仍然是最新的,有效的和相关的。同一位作者在这个主题上有MapReduce,主要关注here插件。要使用Vector Source而不是a newer academic article,你可以使用强制:

tm.plugin.dc

如果这些解决方案都不符合您的口味,或者您只是喜欢冒险,那么您可能也会看到GPU能够解决问题的能力。 GPU相对于CPU的性能有很多变化,这可能是一个用例。如果您想尝试一下,可以使用DirSource或CRAN HPC任务视图中提到的其他GPU包。

例:

data("crude")
as.DistributedCorpus(crude)

输出:

gputools

1
投票

这比我之前的回答要好。

quanteda软件包已经有了很大的发展,现在使用它的内置工具可以更快,更简单地使用它 - 这正是我们设计的。 OP的一部分询问如何为贝叶斯分类器准备文本。我也为此添加了一个例子,因为quanteda的library(tm) install.packages("tm.plugin.dc") library(tm.plugin.dc) GetDCorpus <-function(textVector) { doc.corpus <- as.DistributedCorpus(VCorpus(VectorSource(textVector))) doc.corpus <- tm_map(doc.corpus, content_transformer(tolower)) doc.corpus <- tm_map(doc.corpus, content_transformer(removeNumbers)) doc.corpus <- tm_map(doc.corpus, content_transformer(removePunctuation)) # <- tm_map(doc.corpus, removeWords, stopwords("english")) # won't accept this for some reason... return(doc.corpus) } data <- data.frame( c("Let the big dogs hunt","No holds barred","My child is an honor student"), stringsAsFactors = F) dcorp <- GetDCorpus(data[,1]) tdm <- TermDocumentMatrix(dcorp) inspect(tdm) 会在没有出汗的情况下处理300k文档,而且它正确地实现了多项NB模型(这对于文本计数矩阵最合适 - 另见> inspect(tdm) <<TermDocumentMatrix (terms: 10, documents: 3)>> Non-/sparse entries: 10/20 Sparsity : 67% Maximal term length: 7 Weighting : term frequency (tf) Docs Terms 1 2 3 barred 0 1 0 big 1 0 0 child 0 0 1 dogs 1 0 0 holds 0 1 0 honor 0 0 1 hunt 1 0 0 let 1 0 0 student 0 0 1 the 1 0 0 )。

在这里,我演示了内置的首次语料库对象,但下面的函数也可以使用普通的字符向量输入。我已经使用相同的工作流程在几分钟内在笔记本电脑上处理和拟合数以百万计的推文,因此速度很快。

textmodel_nb()

这是一个相当简单的例子,但为了说明,让我们适合Naive Bayes模型,拿出特朗普文档。这是该帖子发布时的最后一次就职演说(“2017-Trump”),与https://stackoverflow.com/a/54431055/4158274th文档的位置相同。

library("quanteda", warn.conflicts = FALSE)
## Package version: 1.4.1
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

# use a built-in data object
data <- data_corpus_inaugural
data
## Corpus consisting of 58 documents and 3 docvars.

# here we input a corpus, but plain text input works fine too
dtm <- dfm(data, tolower = TRUE, remove_numbers = TRUE, remove_punct = TRUE) %>%
  dfm_wordstem(language = "english") %>%
  dfm_remove(stopwords("english"))

dtm
## Document-feature matrix of: 58 documents, 5,346 features (89.0% sparse).    
tail(dtm, nf = 5)
## Document-feature matrix of: 6 documents, 5 features (83.3% sparse).
## 6 x 5 sparse Matrix of class "dfm"
##               features
## docs           bleed urban sprawl windswept nebraska
##   1997-Clinton     0     0      0         0        0
##   2001-Bush        0     0      0         0        0
##   2005-Bush        0     0      0         0        0
##   2009-Obama       0     0      0         0        0
##   2013-Obama       0     0      0         0        0
##   2017-Trump       1     1      1         1        1

与其他拟合模型对象(例如ndoc()# fit a Bayesian classifier postwar <- ifelse(docvars(data, "Year") > 1945, "post-war", "pre-war") textmod <- textmodel_nb(dtm[-ndoc(dtm), ], y = postwar[-ndoc(dtm)], prior = "docfreq") 等)一起使用的相同类型的命令将与拟合的朴素贝叶斯文本模型对象一起工作。所以:

lm()
© www.soinside.com 2019 - 2024. All rights reserved.