文档特征矩阵（dfm）的标记频率

Question

我正在尝试从文档特征矩阵（dfm）中可视化每个文档的标记数量。

首次从txt文件创建标记时很容易做到，我可以简单地从数据环境中创建的表中可视化每个文档的标记，例如在列类型下，我可以清楚地看到每个文档的标记。

但是，在对文档进行标记化之后，我创建了 dfm，并使用函数 dfm_trim() 和参数 'min_termfreq' 来仅选择在 dfm 中的所有文档中至少出现 15 次的标记，因此标记的数量每个文档减少了。

我不知道如何可视化新值，你能帮我吗？

########################### Code example ##########################

# create the corpus
PI3_CORPUS <- corpus(PI3)

# create the tokens
PI3_TOKENS <- tokens(PI3_CORPUS, remove_punct = TRUE, 
                     remove_numbers = TRUE, 
                     remove_symbols = TRUE) %>%
  tokens_remove(stopwords ("en")) %>%
  tokens_wordstem()

# create the document feature matrix
PI3_DFM <- dfm(PI3_TOKENS) %>%
  dfm_trim(min_termfreq = 15)

# I would like to see the number of tokens per document from the dfm

######################## End code example ##########################

我尝试使用 ntoken() 和 ntype() 这两个函数，它们都可以工作，但它们太“不整洁”，因为控制台中的可视化不清楚。

Answer 1

data.frame(doc_id = docnames(PI3_DFM), ntoken = ntoken(PI3_DFM),
           row.names = NULL)

文档特征矩阵（dfm）的标记频率

问题描述投票：0回答：1

1个回答

最新问题

文档特征矩阵（dfm）的标记频率

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1