问题
给出21个自变量(2值型和连续型),1个因变量(2值型)。希望通过逻辑回归建模,得到哪些自变量自变量可以用来预测因变量,并且希望知道自变量特定范围时因变量预测的敏感性和特异性等信息。
自变量初筛选
- 使用软件:SPSS
- 数据一共96例,我们把大约80%的数据用于建模,20%用于测试,随机选出79例用于建模(这里我不知道SPSS为啥选出的是79例,我设置的是分配比例是80%)
由于自变量比较多,这里想用对每个自变量和因变量单独进行逻辑回归的方式,筛选出对因变量影响较为显著的自变量。
上图为所有自变量进行单变量和多变量logistic回归分析结果。
从结果可以看出,单变量logistic回归分析中P值较低的自变量在多变量分析中P值也会相对较低,但也有特例。我们选出在单变量logistic回归分析中所有P<0.2的自变量(图中黄色标记)进入后面的回归分析。
选出自变量:ABCJLNOPQSTUVW
进一步筛选
在不考虑这些自变量共线形的情况下,把选出的所有自变量进行多变量logistic回归分析,回归方式选择:向后LR,采样基于似然比的后退法筛选自变量。
通过上面的模型系数图可以看到,通过11步,logistic回归不断减少自变量个数,最后模型的P=0.007<0.05,认为回归方程有意义。
Hosmer-Lemeshow拟合优度检查结果显示P=0.663>0.20,可以认为该回归模型较好的拟合了原始数据。
最后几步模型中包含的自变量和系数
可以看到模型最后留下自变量ABPV,但AB的显著性P>0.05,考虑到可能是共线性造成的。
这里我考虑到删除A,把BPV3个自变量再次进行logistic回归,回归方式选择:向后LR,模型回自动筛选掉显著性大于0.05的自变量B,只留下自变量PV。
模型检验表:
变量表:
- 也可以考虑不删除AB中的任何一个,因为我看到有人说:模型显著说明回归方程有意义,单个自变量不显著说明对这个自变量的分析没有意义?
最终的logistic回归模型分析
把PV作为自变量进行logistic回归分析
得到最终的模型,P值为:,认为回归模型有意义
自变量P和V的P值都小于0.05,P的OR值(Exp(B))为6.210,表示P增加0.1个单位,平均肺压为1的优势增加52.1%
最后可以得到包含建模样本和测试样本的分类表和ROC曲线