我正在尝试研究一个包含大约260个二进制变量和一个度量标准的数据集。这些是分类变量的假人,我想在度量变量上回归。
我怎样才能想象它们?
我首先尝试使用plot(),但是不可能在整个数据集上使用它,即使我只使用一个视图,我也无法解释它们。
我试过pairs()
,但输出结果:
'plot.new()出错:数字边距太大'
我也尝试过来自sjp.corr()
包的sjPlot
,但它太小而且无法解释。
我不是很喜欢这样的数据,你会推荐我什么?你如何分析和解释数据(甚至非图形)?你建议不要试图以图形方式解释它吗?我也遇到了问题,如果我尝试非图形地研究它并使用Hmisc包的命令rcorr()。然后我只有一个3 x 260的表,它省略了258行?我能做什么?
我很抱歉,但我无法向您显示数据:(但如果您仍然可以给我一些建议,我会很高兴的
你没有提供我们的数据,但是你的情节我可以获得一些积分
因此,根据上述信息,我为自己生成一个随机数据集,并根据我的数据回答您的问题。
dt<-data.frame(binary=sample(c("0","1"),100,replace = T ),
price=rnbinom(100, 100,0.5 ) )
在我的数据集中,binary
是一个只能包含1或0的字符串,价格是一个数值。
我能做的第一件事就是研究price
特征,了解它的直方图,它帮助我得到它的分布。
library(ggplot2)
ggplot(dt,aes( x=price, fill=binary ))+
geom_histogram( position="identity", alpha=.5)+
geom_density()
结果是:
在下一步中,我希望将1的频率与0进行比较
library(ggplot2)
ggplot(dt,aes(binary,fill=binary))+
geom_bar()
它向我展示了它们的频率:
我怀疑回归是否是获得预测的好选择。我想说,这里最好的选择是使用rpart
进行分类
library(rpart)
model<-rpart(binary~price,dt, method="class" )
但是,不要忘记制作qazxsw poi,并将qazxsw poi数据分开。