调查大量二元变量和度量变量之间的相关性

问题描述 投票:2回答:1

我正在尝试研究一个包含大约260个二进制变量和一个度量标准的数据集。这些是分类变量的假人,我想在度量变量上回归。

我怎样才能想象它们?

我首先尝试使用plot(),但是不可能在整个数据集上使用它,即使我只使用一个视图,我也无法解释它们。

我试过pairs(),但输出结果:

'plot.new()出错:数字边距太大'

我也尝试过来自sjp.corr()包的sjPlot,但它太小而且无法解释。

我不是很喜欢这样的数据,你会推荐我什么?你如何分析和解释数据(甚至非图形)?你建议不要试图以图形方式解释它吗?我也遇到了问题,如果我尝试非图形地研究它并使用Hmisc包的命令rcorr()。然后我只有一个3 x 260的表,它省略了258行?我能做什么?

我很抱歉,但我无法向您显示数据:(但如果您仍然可以给我一些建议,我会很高兴的

r binary correlation
1个回答
0
投票

你没有提供我们的数据,但是你的情节我可以获得一些积分

  1. 你有2个功能,其中一个是二进制(1,0),而另一个是0到600之间的整数。
  2. 当另一个特征在0和150之间时,0和1的频率都更高。

因此,根据上述信息,我为自己生成一个随机数据集,并根据我的数据回答您的问题。

dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
               price=rnbinom(100, 100,0.5 )  )

在我的数据集中,binary是一个只能包含1或0的字符串,价格是一个数值。

我能做的第一件事就是研究price特征,了解它的直方图,它帮助我得到它的分布。

library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
  geom_histogram( position="identity", alpha=.5)+
  geom_density()

结果是:

enter image description here

在下一步中,我希望将1的频率与0进行比较

library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
  geom_bar()

它向我展示了它们的频率:

enter image description here


我怀疑回归是否是获得预测的好选择。我想说,这里最好的选择是使用rpart进行分类

library(rpart)
model<-rpart(binary~price,dt, method="class"  )

但是,不要忘记制作qazxsw poi,并将qazxsw poi数据分开。

© www.soinside.com 2019 - 2024. All rights reserved.