文档特征矩阵(dfm)的标记频率

问题描述 投票:0回答:1

我正在尝试从文档特征矩阵(dfm)中可视化每个文档的标记数量。

首次从txt文件创建标记时很容易做到,我可以简单地从数据环境中创建的表中可视化每个文档的标记,例如在列类型下,我可以清楚地看到每个文档的标记。

但是,在对文档进行标记化之后,我创建了 dfm,并使用函数 dfm_trim() 和参数 'min_termfreq' 来仅选择在 dfm 中的所有文档中至少出现 15 次的标记,因此标记的数量每个文档减少了。

我不知道如何可视化新值,你能帮我吗?

########################### Code example ##########################

# create the corpus
PI3_CORPUS <- corpus(PI3)

# create the tokens
PI3_TOKENS <- tokens(PI3_CORPUS, remove_punct = TRUE, 
                     remove_numbers = TRUE, 
                     remove_symbols = TRUE) %>%
  tokens_remove(stopwords ("en")) %>%
  tokens_wordstem()

# create the document feature matrix
PI3_DFM <- dfm(PI3_TOKENS) %>%
  dfm_trim(min_termfreq = 15)

# I would like to see the number of tokens per document from the dfm

######################## End code example ##########################

我尝试使用 ntoken() 和 ntype() 这两个函数,它们都可以工作,但它们太“不整洁”,因为控制台中的可视化不清楚。

r token quanteda dfm
1个回答
0
投票
data.frame(doc_id = docnames(PI3_DFM), ntoken = ntoken(PI3_DFM),
           row.names = NULL)
© www.soinside.com 2019 - 2024. All rights reserved.