同一组One Hot Encoded变量中不同的VIF分数意味着什么?

问题描述 投票:0回答:1

这是我从每组中删除一个热编码变量以避免虚拟变量陷阱后得到的列的 VIF 表。 在这里,您可以看到 EducationField_Life Sciences 的 VIF 为 51,但 EducationField_Marketing 的 VIF 为 15。 它到底是什么意思? 这对于整个教育领域的变量意味着什么?

                    feature         VIF
0                                 Age   34.499409
1                      BusinessTravel    5.332170
2                           DailyRate    5.131415
3                    DistanceFromHome    2.320716
4                           Education    9.354827
5             EnvironmentSatisfaction    7.352534
6                              Gender    2.522896
7                          HourlyRate   11.652848
8                      JobInvolvement   16.396331
9                            JobLevel   66.694177
10                    JobSatisfaction    7.324124
11                      MonthlyIncome   57.685202
12                        MonthlyRate    5.176077
13                 NumCompaniesWorked    2.750668
14                           OverTime    1.469184
15                  PercentSalaryHike   44.587988
16                  PerformanceRating  158.571984
17           RelationshipSatisfaction    7.477072
18                   StockOptionLevel    3.620297
19                  TotalWorkingYears   15.828763
20              TrainingTimesLastYear    5.713674
21                    WorkLifeBalance   16.331910
22                     YearsAtCompany   10.925293
23                 YearsInCurrentRole    7.021235
24            YearsSinceLastPromotion    2.565941
25               YearsWithCurrManager    6.614778
26  Department_Research & Development  111.144429
27                   Department_Sales   59.010867
28       EducationField_Life Sciences   51.544173
29           EducationField_Marketing   15.877577
30             EducationField_Medical   39.168754
31               EducationField_Other    7.901260
32    EducationField_Technical Degree   12.004904
33            JobRole_Human Resources    4.440756
34      JobRole_Laboratory Technician    4.058289
35                    JobRole_Manager    4.752773
36     JobRole_Manufacturing Director    2.270566
37          JobRole_Research Director    3.073783
38         JobRole_Research Scientist    4.536583
39            JobRole_Sales Executive   17.103128
40       JobRole_Sales Representative    5.225588
41              MaritalStatus_Married    3.285813
42               MaritalStatus_Single    4.649583
linear-regression logistic-regression statsmodels multicollinearity variance-inflation-factor
1个回答
0
投票

VIF 代表方差膨胀因子,具有高 VIF 的变量(某些从业者使用读数 > 5 作为阈值)表明该自变量与分析中的另一个自变量强相关。

例如,变量 EducationField_Life Sciences 和 EducationField_Marketing 都显示出较高的 VIF 读数 - 这表明这些变量都“解释”了因变量的变化。

您没有指定本研究中的因变量是什么,但通常的做法是从分析中删除高度相关的变量之一。也就是说,43 个变量中有 29 个显示 VIF > 5,我也倾向于运行 Spearman 等级相关系数或卡方检验,具体取决于变量是序数变量还是名义变量。请参阅此参考了解更多详细信息。

© www.soinside.com 2019 - 2024. All rights reserved.