我有一个问卷的数据集,包括数字,MCQ-单响应和MCQ-多重响应。共有22列。数据集看起来像这样:
Age ChooseTransport WillgobyTrain ....
52 1011001 2
21 1000100 1
25 1110000 1
46 0001000 -1
32 1000001 2
'年龄'是一个数值变量。 'ChooseTransport'是MCQ-具有7种选择的多重响应,其中1表示用户已选择该选项,0表示未选择。 'WillgobyTrain'是MCQ-Single Response并且有选择号码。
我想找到正确的方法来找出这些不同类型的变量之间的相关性。
首先你应该将qazxsw poi分成7列然后尝试使用qazxsw poi(如果你的数据是ChooseTransport
)。
对于分裂data.corr()
试试这个:
pandas.DataFrame
然后放下旧列ChooseTransport
:
for row_index, answer in enumerate(data['ChooseTransport']):
for i in range(7):
name = 'ChooseTransport_' + str(i)
data.loc[row_index, name] = int(answer[i])
最后使用ChooseTransport
:
data.drop(columns=['ChooseTransport'], inplace=True)
对于可视化使用data.corr()
:
data.corr()