在Text Mining with R中,介绍了对文档(例如,博客文章或新闻文章)进行无监督分类的方法。这是主题建模的工作。我正在运行此链接中包含的代码,但我不知道如何获得图6.3“主题2和主题1之间的beta差异最大的单词”。
有什么建议吗?
本书有可用的资源,您只需单击编辑按钮,然后转到带有当前页面的GitHub项目即可进行编辑。只需导航到所需的章节(一个Rmd文件),然后寻找最接近图像的文本即可。
非常感谢这张图片也是用R制作的,因此您只需检查一下here
为完整性起见:
beta_spread %>%
group_by(direction = log_ratio > 0) %>%
top_n(10, abs(log_ratio)) %>%
ungroup() %>%
mutate(term = reorder(term, log_ratio)) %>%
ggplot(aes(term, log_ratio)) +
geom_col() +
labs(y = "Log2 ratio of beta in topic 2 / topic 1") +
coord_flip()