什么R软件包适合识别与二进制响应变量正相关的单词

问题描述 投票:0回答:2

我有一个小标题,必须三列:

  1. 葡萄酒-葡萄酒名称
  2. wine_description-描述葡萄酒的词(标点符号已被删除)
  3. 目标-0或1个变量1 =评分最高的葡萄酒,0 =未评分最高的葡萄酒

如果我有兴趣识别最受好评的葡萄酒出现的单词(目标变量= 1),我可以使用哪种R包

我在R Text Mining with R中遇到了文本挖掘,但这似乎更多是关于情感分析的,这似乎与我要实现的目标接近,但可能与预期不符。任何建议都将受到欢迎。

我正在假设我完成一些基本分析后,便能够将其纳入逻辑回归。

r dplyr text-mining tidytext qdap
2个回答
1
投票

一个最小的工作示例会很好。据我所知,您所需要的只是一个打包程序,将wine_description变量用作文本字段,即可将数据转换为文档功能矩阵(dfm)。我喜欢Quanteda

然后,以dfm作为预测因子的逻辑回归将是识别使用哪些词来描述顶级葡萄酒的一种方法。


0
投票

您可以将tidymodels框架用于数据预处理,可以将textrecipes框架用于此类建模。您将最终得到看起来像这样的建模。

## ══Workflow════════════════════════════════════════════════════════════════
## Preprocessor: Recipe
## Model: logistic_reg()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────
## 5 Recipe Steps
## 
## ● step_tokenize()
## ● step_stopwords()
## ● step_tokenfilter()
## ● step_tfidf()
## ● step_normalize()
## 
## ── Model ───────────────────────────────────────────────────────────────────
## Logistic Regression Model Specification (classification)
## 
## Main Arguments:
##   penalty = tune()
##   mixture = 1
## 
## Computational engine: glmnet

查看this recent tutorial了解更多详细信息。

© www.soinside.com 2019 - 2024. All rights reserved.