在R中使用rpart（）时使用的实际字符（0）

Question

我正在尝试建立一个模型来确定评论是正面还是负面。我已经加载了所有数据，将其标记为数据帧，如果建议与否，第一列是一个因素。

> str(reviewtokensdf)
'data.frame':   500 obs. of  270 variables:
 $ recommend       : Factor w/ 2 levels "0","1": 1 2 2 1 2 2 1 2 2 2 ...
 $ made            : num  3 0 0 0 0 0 1 0 0 0 ...
 $ site            : num  1 1 0 0 0 0 0 0 0 0 ...
 $ use             : num  1 0 0 0 1 0 0 0 0 0 ...
 $ one             : num  2 1 0 0 0 0 0 0 0 0 ...
 $ will            : num  1 1 1 0 0 0 0 0 0 0 ...
 $ make            : num  2 1 0 0 1 0 0 0 0 1 ...
 $ book            : num  6 0 0 0 3 0 0 0 0 0 ...
 $ place           : num  3 0 0 0 0 1 0 0 0 0 ...
 $ stay            : num  1 0 0 0 0 0 0 0 0 0 ...
 $ night           : num  1 0 0 2 0 0 0 0 0 1 ...
 $ arriv           : num  1 0 0 0 1 0 0 0 0 0 ...
 $ small           : num  1 0 0 0 0 0 0 0 0 0 ...
 $ floor           : num  1 0 0 3 0 0 1 0 0 0 ...

现在我一直在使用较小的子集（n = 500）仅用于测试目的，但这应该不是问题。我已经广泛使用这个（https://medium.com/analytics-vidhya/customer-review-analytics-using-text-mining-cd1e17d6ee4e）教程进行指导，但我一直遇到这个问题：

当我使用此代码时：

tree = rpart(formula = recommend ~ ., data = reviewtokensdf,  method="class",control = rpart.control(minsplit = 200,  minbucket = 30, cp = 0.0001))
printcp(tree)

我希望在“树构造中实际使用的变量中至少看到一些词：部分，但它一直保持在0，我不知道为什么。

    Classification tree:
    rpart(formula = recommend ~ ., data = reviewtokensdf, method = "class", 
        control = rpart.control(minsplit = 200, minbucket = 30, cp = 1e-04))

    Variables actually used in tree construction:
    character(0)

    Root node error: 40/500 = 0.08

    n= 500 

      CP nsplit rel error xerror xstd
    1  0      0         1      0    0

我试图将rpart参数分解为基本的（所以取消rpart.control等）没有骰子。我尝试了在公式字段中推荐的reviewtokensdf $，结果相同。

当我从我提到的指南运行示例数据时，一切都很好，花花公子。但我看不出有什么区别。

Answer 1

问题出在你的rpart.control上。当您拥有包含数千个文档的完整数据集时，它可能已经过很好的调整，但只有500个，这些都是糟糕的选择。尝试

rpart.control(minsplit = 20, minbucket = 5, cp = 0.01)

你可能会得到一些节点分裂。我并不是说这些都是不错的选择，但它们会是一个更好的起点。看看会发生什么并调整。

在R中使用rpart（）时使用的实际字符（0）

问题描述投票：1回答：1

1个回答

最新问题

在R中使用rpart（）时使用的实际字符（0）

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1