选择两个非连续文件以在Quanteda中形成子语料库

问题描述 投票:1回答:1

我希望有关选择两个或多个非连续文件以形成子语料库的建议。此代码选择1个文件:testcorpus < - texts(txtdata)[2]

如果我想组成一个组合文件1和25的语料库,我该怎么做:

我试图修改我在网上找到的代码,结果如下:

> my_corpus1 <- corpus(txtdata)[1] 
> my_corpus2 <- corpus(txtdata)[25] 
> my_corpus3 <- ( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 : 
  non-numeric argument to binary operator

>  xx <- corpus(txtdata)[1]  + corpus(txtdata)[25] 
Error in corpus(txtdata)[1] + corpus(txtdata)[25] : 
  non-numeric argument to binary operator

> my_corpus3 <-c( my_corpus1 + my_corpus2)
Error in my_corpus1 + my_corpus2 : 
  non-numeric argument to binary operator

任何建议表示赞赏,

短发

r subset corpus quanteda
1个回答
0
投票

我这样做:

library("quanteda")
## Package version: 1.4.1
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

corpus_subset(
  data_corpus_inaugural,
  seq_len(ndoc(data_corpus_inaugural)) %in% c(1, 25)
)
## Corpus consisting of 2 documents and 3 docvars.

这里的子集参数返回一个逻辑向量,其中第一个和第25个元素为真,其余为false,它将这些文档选择到您的子目录中。

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.