调查大量二元变量和度量变量之间的相关性

Question

我正在尝试研究一个包含大约260个二进制变量和一个度量标准的数据集。这些是分类变量的假人，我想在度量变量上回归。

我怎样才能想象它们？

我首先尝试使用plot（），但是不可能在整个数据集上使用它，即使我只使用一个视图，我也无法解释它们。

我试过pairs()，但输出结果：

'plot.new（）出错：数字边距太大'

我也尝试过来自sjp.corr()包的sjPlot，但它太小而且无法解释。

我不是很喜欢这样的数据，你会推荐我什么？你如何分析和解释数据（甚至非图形）？你建议不要试图以图形方式解释它吗？我也遇到了问题，如果我尝试非图形地研究它并使用Hmisc包的命令rcorr（）。然后我只有一个3 x 260的表，它省略了258行？我能做什么？

我很抱歉，但我无法向您显示数据:(但如果您仍然可以给我一些建议，我会很高兴的

Answer 1

你没有提供我们的数据，但是你的情节我可以获得一些积分

因此，根据上述信息，我为自己生成一个随机数据集，并根据我的数据回答您的问题。

dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
               price=rnbinom(100, 100,0.5 )  )

在我的数据集中，binary是一个只能包含1或0的字符串，价格是一个数值。

我能做的第一件事就是研究price特征，了解它的直方图，它帮助我得到它的分布。

library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
  geom_histogram( position="identity", alpha=.5)+
  geom_density()

结果是：

在下一步中，我希望将1的频率与0进行比较

library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
  geom_bar()

它向我展示了它们的频率：

我怀疑回归是否是获得预测的好选择。我想说，这里最好的选择是使用rpart进行分类

library(rpart)
model<-rpart(binary~price,dt, method="class"  )

但是，不要忘记制作qazxsw poi，并将qazxsw poi数据分开。