请查看本文末尾的片段。 我使用 Quanteda 运行了一个主题建模的简化教程示例,但是一旦模型完成运行,我发现很难提取每个主题中概率最高的单词并将其可视化,就像 Julia Silge 在 reprex 中提到的示例中所做的那样。


## See https://koheiw.github.io/seededlda/articles/pkgdown/basic.html


corp_all <- readRDS("sputnik.RDS")

corp <- corpus_subset(corp_all, date> "2022-11-29")

toks <- tokens(corp, remove_punct = TRUE, remove_symbols = TRUE, 
               remove_numbers = TRUE, remove_url = TRUE)
dfmt <- dfm(toks) |> 
    dfm_remove(stopwords("en")) |>
    dfm_remove("*@*") |>
    dfm_trim(max_docfreq = 0.1, docfreq_type = "prop")
lda <- textmodel_lda(dfmt, k = 5, verbose = TRUE)
主题1 主题2 主题3 主题4 主题5
推特 今天 加入 爱国者
警察 知道 谷物 比尔 导弹
数据 苏联 出口 记者 飞机
照片 玫瑰 电力 加入 顿巴斯
英国 克里米亚 非洲 共和党人 五边形
麝香 un 产品 特朗普 士兵
报纸 永远 法语 🇺🇦 伊拉克
公司 查理 g7 作者 设备
暴力 重要 印度 参议院 培训
截图 相信 自然 小时 绍伊古

##How can I visualise the results in the style of what I see here

## https://juliasilge.com/blog/sherlock-holmes-stm/

## and I refer in particular to Figure entitled "Highest word probabilities for each topic" ?

## See https://koheiw.github.io/seededlda/articles/pkgdown/basic.html


corp_all <- readRDS("sputnik.RDS")

corp <- corpus_subset(corp_all, date> "2022-11-29")

toks <- tokens(corp, remove_punct = TRUE, remove_symbols = TRUE, 
               remove_numbers = TRUE, remove_url = TRUE)
dfmt <- dfm(toks) |> 
    dfm_remove(stopwords("en")) |>
    dfm_remove("*@*") |>
    dfm_trim(max_docfreq = 0.1, docfreq_type = "prop")
lda <- textmodel_lda(dfmt, k = 5, verbose = TRUE)
主题1 主题2 主题3 主题4 主题5
今天 un 推特 爱国者
谷物 苏联 法语 加入 导弹
出口 知道 马克龙 比尔 飞机
电力 玫瑰 顿巴斯 记者 五边形
产品 克里米亚 参观 加入 士兵
非洲 重要 法国 共和党人 培训
g7 查理 布鲁塞尔 🇺🇦 军队
印度 永远 资产 麝香 数据
自然 相信 联盟 作者 设备
管道 问题 副手 参议院 三月

##How can I visualise the results in the style of what I see here

## https://juliasilge.com/blog/sherlock-holmes-stm/

## and I refer in particular to Figure entitled "Highest word probabilities for each topic" ?

## top 10 terms per topic

top10 <- terms(lda, n = 10) |>
    as_tibble() |>
                 names_to="topic", values_to="word")

phi <- lda$phi |>
    as_tibble(rownames="topic")  |>

top10phi <- top10 |>
    left_join(y=phi, by=c("topic", "word"="name")) ##finally I have a tibble I can work with.

#> # A tibble: 50 × 3
#>    topic  word       value
#>    <chr>  <chr>      <dbl>
#>  1 topic1 crude    0.00509
#>  2 topic2 today    0.00488
#>  3 topic3 un       0.00482
#>  4 topic4 twitter  0.0101 
#>  5 topic5 patriot  0.00642
#>  6 topic1 grain    0.00426
#>  7 topic2 soviet   0.00457
#>  8 topic3 french   0.00482
#>  9 topic4 joins    0.00720
#> 10 topic5 missiles 0.00612
#> # ℹ 40 more rows

## See https://stackoverflow.com/questions/5409776/how-to-order-bars-in-faceted-ggplot2-bar-chart/5414445#5414445

sort_facets <- function(df, cat_a, cat_b, cat_out, ranking_var){
    res <- df |>
        mutate({{cat_out}}:=factor(paste({{cat_a}}, {{cat_b}}))) |>
        mutate({{cat_out}}:=reorder({{cat_out}}, rank({{ranking_var}})))


dd2 <- sort_facets(top10phi, topic, word, category2, value)

gpl <- ggplot(dd2, aes(y=category2, x=value)) +
  geom_bar(stat = "identity") +
  facet_wrap(. ~ topic, scales = "free_y", nrow=3) +
    scale_y_discrete(labels=dd2$word, breaks=dd2$category2,


