spss逻辑SPSS回归分析详细解读不能点确定

  •     这是一本新颖的研究方法与统计分析教材。作者针对心理学与教育学的特点,以平实的语言深入浅出地介绍了定量研究设计与统计方法,以及如何利用统计软件SPSS对研究数据进行统计分析。全书共四大部分,分别介绍:心理与教育测量、研究设计、单变量数据分析以及多变量数据分析。本书不但适合研究生将理论与研究实践结合起来学习、贯通,也适合教育学、心理学、心理咨询、康复医学、社会学、社会工作学等学科的研究者。
  •     这是一本新颖的研究方法与统计分析教材。作者针对心理学与教育学的特点,以平实的语言深入浅出地介绍了定量研究设计与统计方法,以及如何利用统计软件SPSS对研究数据进行统计分析。全书共四大部分,分别介绍:心理与教育测量、研究设计、单变量数据分析以及多变量数据分析。本书不但适合研究生将理论与研究实践结合起来学习、贯通,也适合教育学、心理学、心理咨询、康复医学、社会学、社会工作学等学科的研究者。
  •   王爱民博士 美国迈阿密大学教育心理学系终身教授,现任迈阿密大学教育心理学国际研究生项目主任,教育学院中美联络部负责人;也曾任教于北京大学和内布拉斯加大学。主要教授研究方法、统计学、测量、评估、高级教育心理学、人类发展理论和学习理论等课程。主要科研兴趣包括项目评估、自我控制、儿童社会化、跨文化研究和心理干预等方面。

《逻辑回归分析》由会员分享,可在线阅读,更多相关《逻辑回归分析(55页珍藏版)》请在人人文库网上搜索。

16实用教程在前面学到的回归模型中,我们处理的因变量在前面学到的回归模型中,我们处理的因变量都是数值型区间变量,建立的模型描述的是因都是数值型区间变量,建立的模型描述的是因变量的期望与自变量之间的线性关系。变量的期望与自变量之间的线性关系。线性回归模型:线性回归模型:然而,在许多实际问题中,我们需要研究的响然而,在许多实际问题中,我们需要研究的响应变量不是区间变量而是顺序变量或名义变量应变量不是区间变量而是顺序变量或名义变量这样的属性变量。这样的属性变量。) 1.(.(Y)E22110kkXXX7.8.1 统计学上的定义和计算公式统计学上的定义和计算公式比如在致癌因素的研究中,我们收

2、集了若干比如在致癌因素的研究中,我们收集了若干人的健康记录,包括年龄、性别、抽烟史、人的健康记录,包括年龄、性别、抽烟史、日常饮食以及家庭病史等变量的数据。响应日常饮食以及家庭病史等变量的数据。响应变量在这里是一个两点(变量在这里是一个两点(0-1)分布变量,)分布变量,Y=1(一个人得了癌症),(一个人得了癌症),Y=0(没得癌症)。(没得癌症)。如果我们按照(如果我们按照(1)建立一般线性模型:)建立一般线性模型:) 1.(.(Y)E22110kkXXX因为因为Y只能取只能取0或或1,而,而 的取值是连续的。的取值是连续的。显然不能用显然不能用 来预测因变量来预测因变量 Y 。我们注意到,

3、对于我们注意到,对于0-1型变量,型变量, E(Y)=P(Y=1)=p因而,我们似乎可以用因而,我们似乎可以用 来预测来预测Y=1的概的概率,即:率,即:(Y)E(Y)E(Y)E)2.(.p22110kkXXX问题问题1. Y=1的概率与自变量之间的关系到底的概率与自变量之间的关系到底是不是线性的?(答案是否定的)是不是线性的?(答案是否定的)例如:我们分析一个人是否买车与其年收入例如:我们分析一个人是否买车与其年收入的关系。对于年薪的关系。对于年薪5000元、元、5万元、万元、50万元万元三个人,让他们的年薪分别增加三个人,让他们的年薪分别增加5000元对于元对于其买车的可能性影响是不一样的

4、。其买车的可能性影响是不一样的。概率与自变量之间的关系图形往往是一个概率与自变量之间的关系图形往往是一个S型型曲线曲线概率与自变量之间的关系曲线问题问题2. 概率的取值应该在概率的取值应该在01之间。但是(之间。但是(2)式的概率线性模型并不能满足这一点。式的概率线性模型并不能满足这一点。我们可以通过对我们可以通过对P进行一种变换(进行一种变换(logit变换)变换)

5、0110kkkkkkXXXXXXp模型的建立与解释模型的建立与解释同时,经过变换得到的模型也解决了(同时,经过变换得到的模型也解决了(2 2)中,)中,概率的预测值可能是概率的预测值可能是0,10,1之外的数的缺陷。之外的数的缺陷。(3 3)式建立的模型,我们称为)式建立的模型,我们称为logisticlogistic模型模型(逻辑回归逻辑回归模型)。模型)。我们在学习交叉列联表的相关知识的时候,提我们在学习交叉列联表的相关知识的时候,提到过到过优势或发生比优势或发生比(odds )和)和优势比或发生优势比或发生比率比率(odds ratio)的概念)的概念 是事件发生于不发生的概率之比是事件

6、发生于不发生的概率之比 那么逻辑模型就可以写成那么逻辑模型就可以写成 ppodds1kkXXXpodds22110)(logitln)(那么那么Xi增加一个单位增加一个单位ln(odds|xi+1)=ln(odds|xi)+i于是于是上式我们叫做优势比(上式我们叫做优势比(odds ratio)近似可看)近似可看成是在成是在Xi+1与与Xi两种情况下,事件发生的概两种情况下,事件发生的概率之比。率之比。则,则,PY=1|Xi+1PY=1|Xiexpiiexoddsxoddsii|1|最终,我们可能关心的是根据自变量的值来最终,我们可能关心的是根据自变量的值来对对Y的取值的取值0或或1进行预测。

7、而我们的逻辑回归进行预测。而我们的逻辑回归模型得到的只是关于模型得到的只是关于PY=1|x的预测。的预测。但是,我们可以根据模型给出的但是,我们可以根据模型给出的Y=1的概率的概率(可能性)的大小来判断预测(可能性)的大小来判断预测Y的取值。的取值。一般,以一般,以0.5为界限,预测为界限,预测p大于大于0.5时,我们时,我们判断此时判断此时Y更可能为更可能为1,否则认为,否则认为Y=0。对于逻辑模型对于逻辑模型模型系数的估计不能适用最小二乘估计模型系数的估计不能适用最小二乘估计(OLS)。)。这里,我可以运用最大似然估计(这里,我可以运用最大似然估计(MLE)的)的方法。方法。OLS通过使得

8、样本观测数据的残差平方和最通过使得样本观测数据的残差平方和最小来选择参数,而小来选择参数,而MLE通过最大化对数似然通过最大化对数似然值来估计参数。值来估计参数。kkXXXpp221101ln模型系数的确定模型系数的确定设设y是是0-1型变量,型变量, 是与是与y相关的自变量,相关的自变量,n组观测数据为组观测数据为 。于是。于是y1,y2,yn的似然函数为的似然函数为对数似然函数为对数似然函数为最大似然估计就是选取最大似然估计就是选取 的估计值的估计值 使得使得log似然函数最大化。似然函数最大化。kxxx, 21,ni, 2 , 1 iikiiyxxx;,21 niniyiyiiiiL11

与任何概率一样,似然的取值范围在与任何概率一样,似然的取值范围在0,10,1之间。之间。2LL2LL的计算公式为的计算公式为其报告值越小说明似然函数值越大从而模型拟其报告值越小说明似然函数值越大从而模型拟合程度越好合程度越好两个模型之间显著性两个模型之间显著性似然比检验统计量似然比检验统计量的形式的形式为为 -2log(L-2log(L0 0/L/L1 1)=-2LL)=-2LL0

Logistic回归的拟合优度统计量计算公回归的拟合优度统计量计算公式为式为Pearson Pearson 残差平方和残差平方和,在原假设(所建立的,在原假设(所建立的模型与饱和模型没有显著性差异)下也服从自模型与饱和模型没有显著性差异)下也服从自由度为两个模

与一般拟合优度检验不同,与一般拟合优度检验不同,HosmerHosmer和和LemeshowLemeshow的拟合优度检验通常把样本数据根的拟合优度检验通常把样本数据根据预测概率分为据预测概率分为1010组,然后根据观测频数

13、和期组,然后根据观测频数和期望频数构造卡方统计量(即望频数构造卡方统计量(即HosmerHosmer和和LemeshowLemeshow的拟合优度检验统计量,简称的拟合优度检验统计量,简称H-LH-L拟拟合优度检验统计量),最后根据自由度为合优度检验统计量),最后根据自由度为8 8的的卡方分布计算其值并对卡方分布计算其值并对LogisticLogistic模型进行检模型进行检验。验。 如果该如果该p p值小于值小于给定的显著性水平(如给定的显著性水平(如=0.05=0.05),则拒绝因变量的观测值与模型预测),则拒绝因变量的观测值与模型预测值不存在差异的零假设,值不存在差异的零假设,表明模型的

14、预测值与表明模型的预测值与观测值存在显著差异观测值存在显著差异。如果值。如果值大于大于,我们没有,我们没有充分的理由拒绝零假设,充分的理由拒绝零假设,表明在可接受的水平表明在可接受的水平上模型的估计拟合了数据上模型的估计拟合了数据。 7Wald统计量统计量(回归系数的非零检(回归系数的非零检验)验) Wald Wald统计量用于判断一个变量是否应该统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。包含在模型中,其检验步骤如下。 (1 1)提出假设。)提出假设。 (2 2)构造)构造WaldWald统计量。统计量。 (3 3)作出统计判断。)作出统计判断。 研究问题研究问题 在一次关于

15、某城镇居民上下班使用交通工在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量具的社会调查中,因变量y =1y =1表示居民主要乘表示居民主要乘坐公共汽车上下班;坐公共汽车上下班;y =0y =0表示主要骑自行车上表示主要骑自行车上下班;自变量下班;自变量x1x1表示被调查者的年龄;表示被调查者的年龄;x2x2表示表示被调查者的月收入;被调查者的月收入;x3x3表示被调查者的性别表示被调查者的性别(x3=1x3=1为男性,为男性,x3=0 x3=0为女性)为女性)x3x3在这里是一在这里是一个虚拟变量个虚拟变量。试建立试建立y

16、归,数据如回归,数据如表表7-77-7所示。所示。7.8.2 SPSS中实现过程中实现过程序号序号x1(年龄)(年龄)x2(月收入:元)(月收入:元)x3(性别)(性别)y

实现步骤实现步骤将因变量放入dependent栏,自变量放入covariates栏中制定变量引入模型的方法和线性回归一样,我们可以通过next按钮把自变量分成不同的组块,使不同的组块按顺序以不同的方式分步进入模型这里,我们可以把几个变量的乘积作为自变量引入模型作为交互影响项如果自变量中有分类变量,在这里可以设置相应的虚拟变量Classification plots:制作分类图,通过比较因变量的观测值与预测值的关系,反映回归模型的拟合效果。Hosmer-Lemeshow goodness-of-

exp(B):输出exp(beta)的置信区间,默认置信度为95%根据概率对数据进行分类时的概率界限值,默认值为0.5参数估计时,似然函数值收敛到最大值前的最大迭代次数。选择输出结果的方式。显示每一步的计算结果或是只显示最后的结果设定自变量进入模型方程或被剔除出方

19、程的标准。在save选项中,我们可以选择需要保存的数据文件中的统计量。包括残差值、个案影响度统计量、预测概率值等等 (1 1)第一部分输出结果有两个表格,第)第一部分输出结果有两个表格,第一个表格说明所有个案(一个表格说明所有个案(2828个)都被选入作为个)都被选入作为回归分析的个案。回归分析的个案。 7.8.3 结果和讨论结果和讨论 第二个表格说明初始的因变量值(第二个表格说明初始的因变量值(0 0,1 1)已经转换为逻辑回归分析中常用的已经转换为逻辑回归分析中常用的0 0、1 1数值。数值。 (2 2)第二部分()第二部分(Block 0Block 0)输出结果有)输出结果有4 4个表格

Table分类表说明第一次迭代结果的拟分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于合效果,从该表格可以看出对于y=0y=0,有,有86.7%86.7%的准确性;对于的准确性;对于y=1y=1,有,有76.9%76.9%准确性,因此对于所有个案总共有准确性,因此对于所有个案总共有82.1%82.1%的准确性。的准确性。 (7 7)Variables in the E

统计量值和它对应的相伴概率。统计量值和它对应的相伴概率。从该表格中可以看出从该表格中可以看出x3x3相伴概率最小,相伴概率最小,WaldWald统计量最大,可见该变量在统计量最大,可见该变量在模型中很重要模型中很重要。回归系数的估计值系数的wald检验Exp(beta)的估计值以及区间估计 (8 8)Correlation MatrixCorrelation Matrix表格列出了常数表格列出

23、了常数ConstantConstant、系数之间的相关矩阵。常数与、系数之间的相关矩阵。常数与x2x2之间的之间的相关性最大,相关性最大,x1x1和和x3x3之间的相关性最小之间的相关性最小。 (9 9)图)图7-267-26所示是观测值和预测概率分所示是观测值和预测概率分布图。该图以布图。该图以0 0和和1 1为符号,每四个符号代表一为符号,每四个符号代表一个个案。横坐标是个案属于个个案。横坐标是个案属于1 1的录属度,这里的录属度,这里称为预测概率(称为预测概率(Predicted ProbabilityPredicted Probability)。)。纵坐标是个案分布频数,反映个案的分布

24、。纵坐标是个案分布频数,反映个案的分布。 (1010)逻辑回归的最后一个输出表格是)逻辑回归的最后一个输出表格是Casewise ListCasewise List,列出了残差大于,列出了残差大于2 2的个案。的个案。1.根据三个财务比率估计公司破产概率。(数据见根据三个财务比率估计公司破产概率。(数据见ftp 财务比率与破产预财务比率与破产预测测.sav)Y=0,若两年后破产,若两年后破产Y=1, 若两年后仍有偿付能力若两年后仍有偿付能力X1=未分配利润未分配利润/总资产总资产X2=支付利息税金前的利润支付利息税金前的利润/总资产总资产X3=销售额销售额/总资产总资产按照习题模式,列出最终计

25、算结果,并做出必要解释。按照习题模式,列出最终计算结果,并做出必要解释。(Logistic 模型最终表达式模型最终表达式模型检验、拟合优度模型检验、拟合优度Wald 检验检验最终分类表、观测与预测分布图最终分类表、观测与预测分布图系数相关矩阵)系数相关矩阵)作业(共两题)2.对于对于1986年挑战者号航天飞机灾难之前的年挑战者号航天飞机灾难之前的23次航天飞行,次航天飞行,数据数据 航天飞机热遇险航天飞机热遇险.sav给出了飞行时温度和是否至少给出了飞行时温度和是否至少有一个主要有一个主要O型圈遭受热遇险。(数据见型圈遭受热遇险。(数据见ftp)a)利用利用logistic回归建立温度对热遇险概率的模型,并对效回归建立温度对热遇险概率的模型,并对效应进行解释。应进行解释。b)估计挑战者号飞行时温度为华氏估计挑战者号飞行时温度为华氏31度时的热遇险概率。度时的热遇险概率。c)温度为多少时,概率等于温度为多少时,概率等于0.50?在该温度下,给出温度每?在该温度下,给出温度每增加一度导致的概率估计值的线性近似变化。增加一度导致的概率估计值的线性近似变化。d)利用利用wald检验,检验不存在温度效应的假设检验,检验不存在温度效应的假设 回归分析是研究变量与变量之间联系的最回归分析是研究变量与变量之间联系的最为广泛的模型。在实际中,根据变量的

我要回帖

更多关于 SPSS回归分析详细解读 的文章

 

随机推荐