这是我从每组中删除一个热编码变量以避免虚拟变量陷阱后得到的列的 VIF 表。 在这里,您可以看到 EducationField_Life Sciences 的 VIF 为 51,但 EducationField_Marketing 的 VIF 为 15。 它到底是什么意思? 这对于整个教育领域的变量意味着什么?
feature VIF
0 Age 34.499409
1 BusinessTravel 5.332170
2 DailyRate 5.131415
3 DistanceFromHome 2.320716
4 Education 9.354827
5 EnvironmentSatisfaction 7.352534
6 Gender 2.522896
7 HourlyRate 11.652848
8 JobInvolvement 16.396331
9 JobLevel 66.694177
10 JobSatisfaction 7.324124
11 MonthlyIncome 57.685202
12 MonthlyRate 5.176077
13 NumCompaniesWorked 2.750668
14 OverTime 1.469184
15 PercentSalaryHike 44.587988
16 PerformanceRating 158.571984
17 RelationshipSatisfaction 7.477072
18 StockOptionLevel 3.620297
19 TotalWorkingYears 15.828763
20 TrainingTimesLastYear 5.713674
21 WorkLifeBalance 16.331910
22 YearsAtCompany 10.925293
23 YearsInCurrentRole 7.021235
24 YearsSinceLastPromotion 2.565941
25 YearsWithCurrManager 6.614778
26 Department_Research & Development 111.144429
27 Department_Sales 59.010867
28 EducationField_Life Sciences 51.544173
29 EducationField_Marketing 15.877577
30 EducationField_Medical 39.168754
31 EducationField_Other 7.901260
32 EducationField_Technical Degree 12.004904
33 JobRole_Human Resources 4.440756
34 JobRole_Laboratory Technician 4.058289
35 JobRole_Manager 4.752773
36 JobRole_Manufacturing Director 2.270566
37 JobRole_Research Director 3.073783
38 JobRole_Research Scientist 4.536583
39 JobRole_Sales Executive 17.103128
40 JobRole_Sales Representative 5.225588
41 MaritalStatus_Married 3.285813
42 MaritalStatus_Single 4.649583
VIF 代表方差膨胀因子,具有高 VIF 的变量(某些从业者使用读数 > 5 作为阈值)表明该自变量与分析中的另一个自变量强相关。
例如,变量 EducationField_Life Sciences 和 EducationField_Marketing 都显示出较高的 VIF 读数 - 这表明这些变量都“解释”了因变量的变化。
您没有指定本研究中的因变量是什么,但通常的做法是从分析中删除高度相关的变量之一。也就是说,43 个变量中有 29 个显示 VIF > 5,我也倾向于运行 Spearman 等级相关系数或卡方检验,具体取决于变量是序数变量还是名义变量。请参阅此参考了解更多详细信息。