SPSS GLM在构建交互项与创建交互变量时的意义不同

问题描述 投票:0回答:1

我想知道是否有人知道SPSS如何构建交互条件/如何计算GLM幕后预测变量的重要性?根据我的理解,虚拟变量编码变量并将按字母顺序排列的最后一个变量视为参考组。

我问的原因是我有一个GLM模型,该模型具有3个连续的预测变量和两个分类的预测变量(虚拟编码)。当我使用语法建立所有2向和3向交互时,即:

Age_Centred Age_Centred Dx Age_Centred性别Age_Centred Dx性别BMI_Centred BMI_Centred Dx BMI_Centred性别BMI_Centred Dx性别BPS_Centred BPS_Centred Dx BPS Dx Dx 性别Dx ICV_Centred Dx ICV_Centred性别性别ICV_Centred ICV_Centred * gender。vs手动手动创建所有变量,即:

Age_Centred Age_Centred_Dx Age_Centred_gender Age_Centred_gender_Dx BMI_Centred BMI_Centred_Dx BMI_Centred_gender BMI_Centred_gender_Dx BPS_Centred BPS_Centred_Dx BPS_Cent_xx_gender_gender_gender_gender_gender_gender_gender_gender_gender_gender_gender_gender_gender_gender_gender_gender_gx

我最终得到一个模型,该模型具有相同的截距,整体重要性和R平方,但是预测变量的个体重要性发生了变化。请参阅下面的输出。为了进行故障排除,我尝试在手动创建变量时翻转引用组,但是它仍然不能复制结果。我让另一位统计学家尝试了同样的事情,最终达到了与我所做的事情相同的观点。它与某些冗余参数有关吗?

Building the terms via syntax:

Physically creating the variables by multiplying them together

我想知道是否有人知道SPSS如何构建交互条件/如何计算GLM幕后预测变量的重要性?根据我的理解,它是对变量进行虚拟编码并对待...

[所有细节,人们可能会很想知道GLM(和UNIANOVA,这是相同的基础代码)如何参数化模型,估计参数并进行假设检验,可从

IBM SPSS Statistics Algorithms

手册中获得,该手册可供下载。格式为ftp://public.dhe.ibm.com/software/analytics/spss/documentation/statistics/26.0/en/client/Manuals/IBM_SPSS_Statistics_Algorithms.pdf的pdf。 (请注意,这是一个大文件,大约78 MB;单击链接将开始下载。)除了GLM章节中的信息之外,附录F(指示符方法)和附录H(平方和)分别是相关的,用于构建设计矩阵并指定模型参数的线性组合,以计算平方和以检验假设。在构建设计矩阵时,类别预测变量(因子)确实由一组指标(0-1)变量表示。对于具有

k

级别的因子,将创建k指标变量,每个观察到的因子级别都一个。该过程没有明确地将最后一个类别(按升序排序,按字母顺序排列为字符串)视为参考类别,尽管在更简单的模型中,完成的结果基本相同。如果模型中存在截距,则k th指示符将在截距和前面的k-1指示符上冗余(线性相关)。 GLM / UNIANOVA中使用的估计算法会将表示产品矩阵中冗余列的叉积矩阵中的行和列设置为0s,将对应的参数估计值别名设置为0,其结果类似于使用重参数化方法处理最后一个类别作为参考类别,但如果要指定要估计的参数的线性组合,则必须记住该类别在那里。如果抑制了截距,则对于输入模型的第一个因子,

k th

指示符将不是多余的(除非该因子后面带有不寻常的协变量或一组协变量)。模型中包括的任何后续因素都将涉及冗余参数,以及因素之间的任何交互作用(无论是否包括截距)都将包括在内。因子之间的相互作用是通过将因子的每个级别的0和1乘以其他因子的每个级别的0和1来创建的。因此,对于两个两个级别的因子的交互,将生成四个列,其中通常后三个列是多余的。只需通过将变量的值复制到设计矩阵中即可输入协变量。涉及协变量和其他协变量的交互将每一行中涉及的列的值相乘,并且涉及协变量和因子的交互将协变量(或它们的乘积)乘以因子的指标变量。通常,协变量项不涉及冗余,但因子协项会涉及冗余。


要详细了解数据的运行状况,我无法在没有数据的情况下复制您的确切结果,但是如果我假设您已使用二进制Dx变量作为协变量,则能够复制显示的模式并将性别性别变量作为每次分析的一个因素。 (您的模型中似乎实际上有四个连续的预测变量,而不是三个,但这对了解正在发生的事情没有任何重要影响。)

有两种情况需要考虑。一种是参数化,以及将变量输入模型的两种方式如何处理变量,以及它们是否产生相同的参数估计。第二个是模型规格如何在ANOVA表中显示的Type III测试中得出。

如果我根据您在此处发布的内容正确理解事物,则应该查找是否比较了两个分析的参数估算值,即截距的参数估算值和性别的非冗余估算值([gender = 0 ])相同,并且具有相同的标准误差。对于仅涉及协变量或协变量乘积的术语,我希望您会发现两次分析之间的参数估计会有所不同,并产生不同的t统计量。对于涉及性别和协变量(这是在程序外部创建的所有其他变量或乘积)的交互,我希望估算值的大小相同,符号相反,具有相同的标准误差。

这里的估计或检验均不正确。拟合的模型涉及相互作用效应。交互作用是指一个变量的作用随交互作用中其他变量的水平而变化,并且为了估算相同的简单作用,您必须以相同的方式对模型进行参数化,至少要对非变量进行影响。 -冗余参数。但是,要使所有项的Type III测试完全相同,具有相同的参数估计值和标准误差并不总是足够的。 III型测试涉及一个必须称为遏制的概念,也必须予以考虑。

对于模型中的两个效果,如果满足以下条件,则效果B包含在效果B中:

    [A和B包含相同的协变量项,如果有的话。
  • B包含A中的所有因子效应,并且至少包含一个因子(截距包含在所有仅因子效应中。
  • 在您的原始模型中,截距包含在性别效应中,性别不包含在任何效应中,所有协变量主效应和协变量之间的双向交互都包含在这些术语与性别之间的相互作用中,而三方互动(包括性别)未包含在任何其他效果内。
  • III型平方和(不是SPSS发明,而是由我们的SAS朋友发明的)是基于参数的线性组合,其中给定效果针对不包含该效果的任何效果进行了调整,并与包含该效果的任何效果正交它。这些规则的实际应用很复杂(请参阅算法的附录H)。

    如果重新编码性别变量以交换0和1值,将其与所有其他变量一起指定为协变量,并适合同一模型,则您应该能够匹配原始变量的所有非冗余参数估计值模型及其标准误差和t统计量。但是,由于不再存在原始模型中的包含关系,因此对于不涉及性别的术语(以前包含在涉及性别的术语中)的Type III测试将不匹配。

最重要的是,所有结果都是可翻译的,并且都对正在执行的操作都是正确的,并且为了从单个术语中获得更多的含义,您必须仔细关注给定参数化中所估计的内容以及所包含的内容关系。当您认真考虑以下事实时,困难的部分会变得更简单:当变量X包含在交互项中时,就没有对X的影响的单一估计。任何估计都是有条件的,您可以在其中固定与之相关的项的值。 X交互。

spss glm
1个回答
0
投票
[所有细节,人们可能会很想知道GLM(和UNIANOVA,这是相同的基础代码)如何参数化模型,估计参数并进行假设检验,可从

IBM SPSS Statistics Algorithms

© www.soinside.com 2019 - 2024. All rights reserved.