SPSS学习系列27 回归分析.docx
- 文档编号:5283388
- 上传时间:2023-05-08
- 格式:DOCX
- 页数:29
- 大小:685.74KB
SPSS学习系列27 回归分析.docx
《SPSS学习系列27 回归分析.docx》由会员分享,可在线阅读,更多相关《SPSS学习系列27 回归分析.docx(29页珍藏版)》请在冰点文库上搜索。
SPSS学习系列27回归分析
27.回归分析
回归分析是研究一个或多个变量(因变量)与另一些变量(自变量)之间关系的统计方法。
主要思想是用最小二乘法原理拟合因变量与自变量间的最佳回归模型(得到确定的表达式关系)。
其作用是对因变量做解释、控制、或预测。
回归与拟合的区别:
拟合侧重于调整曲线的参数,使得与数据相符;而回归重在研究两个变量或多个变量之间的关系。
它可以用拟合的手法来研究两个变量的关系,以及出现的误差。
回归分析的步骤:
(1)获取自变量和因变量的观测值;
(2)绘制散点图,并对异常数据做修正;
(3)写出带未知参数的回归方程;
(4)确定回归方程中参数值;
(5)假设检验,判断回归方程的拟合优度;
(6)进行解释、控制、或预测。
(一)一元线性回归
一、基本原理
一元线性回归模型:
Y=𝛽0+𝛽1X+ε
其中X是自变量,Y是因变量,𝛽0,𝛽1是待求的未知参数,𝛽0也称为截距;ε是随机误差项,也称为残差,通常要求ε满足:
①ε的均值为0;
②ε的方差为𝜎2;
③协方差COV(εi,εj)=0,当i≠j时。
即对所有的i≠j,εi与εj互不相关。
二、用最小二乘法原理,得到最佳拟合效果的
值:
,
三、假设检验
1.拟合优度检验
计算R2,反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好。
通常可以认为当R2大于0.9时,所得到的回归直线拟合得较好,而当R2小于0.5时,所得到的回归直线很难说明变量之间的依赖关系。
2.回归方程参数的检验
回归方程反应了因变量Y随自变量X变化而变化的规律,若𝛽1=0,则Y不随X变化,此时回归方程无意义。
所以,要做如下假设检验:
H0:
𝛽1=0,H1:
𝛽1≠0;
(1)F检验
若𝛽1=0为真,则回归平方和RSS与残差平方和ESS/(N-2)都是𝜎2的无偏估计,因而采用F统计量:
来检验原假设β1=0是否为真。
(2)T检验
对H0:
𝛽1=0的T检验与F检验是等价的(t2=F)。
3.用回归方程做预测
得到回归方程
后,预测X=x0处的Y值
.
的预测区间为:
其中tα/2的自由度为N-2.
二、实例
例1有30名儿童棒球选手的数据:
变量Height表示“击球高度”,Distance表示“球飞出的距离”,用回归分析研究球飞出的距离与击球高度的关系。
1.【分析】——【回归】——【线性】,打开“线性回归”窗口,将变量“Distance”选入【因变量】框,“Height”选入【自变量】框;
注:
【选择变量+规则】:
可以对某个变量,只对满足某条件的个案做回归分析;
【WLS权重】:
可选择加权变量进行加权最小二乘法的回归分析;
2.点【统计量】,打开“统计量”子窗口,勾选【回归系数】下的“估计”、“置信区间”,勾选【残差】下的“Durbin-Watson”,勾选“模型拟合度”、“描述性”;点【继续】;
3.【保存】可选项
点【保存】,打开“保存”子窗口,【预测值】给出用回归方程计算的预测值;勾选“未标准化”,【残差】给出做残差分析模型诊断用的各种残差,勾选“标准化”;将在原数据上增加两列PRE_1和ZRE_1分别存储预测值和残差值;点【继续】;
点【确定】,得到
描述性统计量
均值
标准偏差
N
球飞出的距离
130.73
11.194
30
击球高度
48.97
2.371
30
相关性
球飞出的距离
击球高度
Pearson相关性
球飞出的距离
1.000
.613
击球高度
.613
1.000
Sig.(单侧)
球飞出的距离
.
.000
击球高度
.000
.
N
球飞出的距离
30
30
击球高度
30
30
给出了两个变量的相关性描述,相关系数为0.613.
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
击球高度b
.
输入
a.因变量:
球飞出的距离
b.已输入所有请求的变量。
选入回归模型的变量以及剔除的变量,本例只有一个自变量。
模型汇总b
模型
R
R方
调整R方
标准估计的误差
Durbin-Watson
1
.613a
.376
.353
9.001
1.569
a.预测变量:
(常量),击球高度。
b.因变量:
球飞出的距离
模型的R2反映了自变量所能解释的方差占总方差的百分比,值越大说明模型拟合效果越好,本例R2=0.376,说明线性回归关系并不强,球飞出的距离可能还和其它因素如选手的年龄、经验有关。
Durbin-Watson检验值=1.569,说明残差基本上是独立的(靠近2说明误差基本上是独立的,小于2说明是正相关。
Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
1365.508
1
1365.508
16.855
.000b
残差
2268.358
28
81.013
总计
3633.867
29
a.因变量:
球飞出的距离
b.预测变量:
(常量),击球高度。
回归模型的F检验,原假设H0:
回归系数=0;本例P值<0.001<0.05,故拒绝原假设H0,即回归系数不为0.
注:
对一元线性回归模型,由于T值=F值的平方根,故T检验与F检验是等价的。
系数a
模型
非标准化系数
标准系数
t
Sig.
B的95.0%置信区间
B
标准误差
试用版
下限
上限
1
(常量)
-11.009
34.564
-.319
.752
-81.809
59.792
击球高度
2.895
.705
.613
4.106
.000
1.450
4.339
a.因变量:
球飞出的距离
给出回归方程的常数项、回归系数的估计值及置信区间,以及检验结果(原假设H0:
其值=0),得到回归方程:
Distance=-11.009+2.895*Height
斜率2.895的t检验P值=0.0003<0.05,说明该结果在显著水平α下有统计学意义;但截距的t检验结果并不显著。
残差统计量a
极小值
极大值
均值
标准偏差
N
预测值
119.25
142.41
130.73
6.862
30
残差
-23.724
20.276
.000
8.844
30
标准预测值
-1.673
1.701
.000
1.000
30
标准残差
-2.636
2.253
.000
.983
30
a.因变量:
球飞出的距离
(二)多元线性回归
一、基本原理
多元线性回归模型:
Y=𝛽0+𝛽1X1+…+𝛽NXN+ε
其中X1,…,XN是自变量,Y是因变量,𝛽0,𝛽1…,𝛽N是待求的未知参数,ε是随机误差项(残差),若记
多元线性回归模型可写为矩阵形式:
Y=Xβ+ε
通常要求:
矩阵X的秩为k+1(保证不出现共线性),且k ,其中I为N×N单位矩阵。 用最小二乘法原理,令残差平方和 最小,得到 为β的最佳线性无偏估计量(高斯-马尔可夫定理)。 2.𝜎2的估计和T检验 选取𝜎2的估计量: 则 假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1-α置信区间可由下式得出: 其中tα/2为与α%显著水平有关的t分布临界值。 3.R2和F检验 若因变量不具有0平均值,则必须对R2做如下改进: 随着模型中增添新的变量,R2的值必定会增大,为了去掉这种增大的干扰,还需要对R2进行修正(校正拟合优度对自由度的依赖关系): 做假设检验: H0: 𝛽1=…=𝛽N=0;H1: 𝛽1…,𝛽N至少有一个≠0; 使用F统计量做检验, 若F值较大,则否定原假设。 4.回归诊断 (1)残差图分析 残差图就是以残差 为纵坐标,某一个合适的自变量为横坐标的散点图。 回归模型中总是假定误差项是独立的正态分布随机变量,且均值为零和方差相等为𝜎2.如果模型适合于观察到的数据,那么残差作为误差的无偏估计,应基本反映误差的假设特征。 即残差图应该在零点附近对称地密布,越远离零点的地方就疏散(在形象上似有正态趋势),则认为模型与数据拟合得很好。 若残差图呈现如图(a)所示的形式,则认为建立的回归模型正确,更进一步再诊断“学生化残差”是否具有正态性: 图(b)表明数据有异常点,应处理掉它重新做回归分析(在SAS的REG回归过程步中用来度量异常点影响大小的统计量是COOKD统计量); 图(c)残差随x的增大而增大,图(d)残差随x的增大而先增后减,都属于异方差。 此时应该考虑在回归之前对数据y或x进行变换,实现方差稳定后再拟合回归模型。 原则上,当误差方差变化不太快时取变换 ;当误差方差变化较快时取变换logy或lny;当误差方差变化很快时取变换1/y;还有其他变换,如著名的Box-Cox幂变换 . 图(e)(f)表示选用回归模型是错误的。 (2)共线性 回归分析中很容易发生模型中两个或两个以上的自变量高度相关,从而引起最小二乘估计可能很不精确(称为共线性问题)。 在实际中最常见的问题是一些重要的自变量很可能由于在假设检验中t值不显著而被不恰当地剔除了。 共线性诊断问题就是要找出哪些变量间存在共线性关系。 (3)误差的独立性 回归分析之前,要检验误差的独立性。 若误差项不独立,那么回归模型的许多处理,包括误差项估计、假设检验等都将没有推导依据。 由于残差是误差的合理估计,因此检验统计量通常是建立在残差的基础上。 检验误差独立性的最常用方法,是对残差的一阶自相关性进行Durbin-Watson检验。 H0: 误差项是相互独立的;H1: 误差项是相关的 检验统计量: DW接近于0,表示残差中存在正自相关;如果DW接近于4,表示残差中存在负自相关;如果DW接近于2,表示残差独立性。 二、实例 例2有31位成年人心肺功能的调查数据: 用多元线性回归模型,研究耗氧量的是如何依赖其它变量的。 1.【分析】——【回归】——【线性】,打开“线性回归”窗口,将变量“Oxygen”选入【因变量】框,将变量“age”、“weight”、“runtime”、“rstpulse”、“runpulse”、“Maxpulse”选入【自变量】框; 【方法】下拉菜单选择“向后”; 注: 多元线性回归涉及到自变量的筛选,SPSS提供了5种筛选方法: (1)进入法——选入【自变量】框的自变量都加入模型; (2)向前法——先将部分自变量加入模型,再逐个添加其它变量,若自变量对模型有统计学意义的影响则加入(只进不出); (3)向后法——先把全部自变量加入模型,若自变量对模型无统计学意义的影响则剔除(只出不进); (4)逐步回归法——综合“向前法”和“向后法”逐个引入自变量; (5)删除法——规定为删除的自变量被强制剔除出模型,运行结果会给出若将其引入的参数估计和检验结果(做对比时用)。 2.点【统计量】打开“统计量”子窗口,勾选【回归系数】的“估计”;勾选【残差】的“Durbin-Watson”(残差独立性检验);勾选“模型拟合度”、“R方变化”、“部分相关和偏相关性”、“共线性诊断”;点【继续】; 注: 多元线性回归要求变量基本相互独立,所以有必要进行共线性诊断,若有共线性将对结果造成较大误差。 3.用【图形】进行残差独立性检验。 点【绘制】,打开“图”子窗口,勾选【标准化残差图】的“直方图”、“正态概率图”;残差的方差齐性,可用回归标准化残差图考察: 将“ZPRED”(标准化预测值)选入【X2(X)】框,将“ZRESID”(标准化残差)选入【Y(Y)】框;点【继续】; 注意: 若自变量与因变量的关系并非线性、残差方差不齐、变量间不独立,都会导致残差的直方图、正态概率图非正态性。 4.点【选项】,打开“选项”子窗口,设置选入或剔除变量的标准,以及回归模型是否保留常数项,默认设置即可。 5.若需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析。 点【保存】,打开“保存”子窗口,设置想要保存的预测值、残差、距离、波动统计量等;点【继续】; 点【确定】,得到 先看共线性诊断结果: 系数a 模型 非标准化系数 标准系数 t Sig. 共线性统计量 B 标准误差 试用版 容差 VIF 1 (常量) 102.238 12.453 8.210 .000 年龄 -.220 .100 -.215 -2.208 .037 .667 1.499 体重 -.072 .055 -.113 -1.324 .198 .867 1.154 跑15英里的时间 -2.681 .375 -.698 -7.150 .000 .664 1.505 休息时每分钟心跳次数 -.001 .059 -.001 -.014 .989 .760 1.316 跑步时每分钟心跳次数 -.373 .121 -.718 -3.092 .005 .117 8.517 每分钟心跳次数的最大值 .305 .137 .524 2.221 .036 .114 8.799 2 (常量) 102.204 11.979 8.532 .000 年龄 -.220 .096 -.215 -2.300 .030 .697 1.436 体重 -.072 .053 -.113 -1.356 .187 .875 1.143 跑15英里的时间 -2.683 .341 -.699 -7.867 .000 .771 1.297 跑步时每分钟心跳次数 -.373 .117 -.719 -3.188 .004 .120 8.359 每分钟心跳次数的最大值 .305 .134 .525 2.277 .032 .115 8.731 3 (常量) 98.148 11.786 8.328 .000 年龄 -.198 .096 -.193 -2.068 .049 .717 1.395 跑15英里的时间 -2.768 .341 -.721 -8.127 .000 .798 1.253 跑步时每分钟心跳次数 -.348 .117 -.670 -2.963 .006 .123 8.147 每分钟心跳次数的最大值 .271 .134 .465 2.024 .053 .119 8.418 a.因变量: 耗氧量 模型1-3分别是做了三次剔除变量的回归,判断共线性看VIF值,若VIF值大于2则表明共线性很强。 本例中国,“跑步时每分钟心跳次数”为8.517,“每分钟心跳次数的最大值”为8.799,表明二者有极强的共线性,应去掉“每分钟心跳次数的最大值”,重新做回归分析。 在【线性回归】窗口,将【自变量】框的变量“Maxpulse”移出,点【确定】,得到 输入/移去的变量a 模型 输入的变量 移去的变量 方法 1 跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间b . 输入 2 . 休息时每分钟心跳次数 向后(准则: F-to-remove>=.100的概率)。 3 . 体重 向后(准则: F-to-remove>=.100的概率)。 a.因变量: 耗氧量 b.已输入所有请求的变量。 采用“向后法”筛选变量结果为: 第2步剔除了变量“休息时每分钟心跳次数”、第3步剔除了变量“体重”;最终选入变量“跑步时每分钟心跳次数”、“年龄”、“跑15英里的时间”。 模型汇总d 模型 R R方 调整R方 标准估计的误差 更改统计量 Durbin-Watson R方更改 F更改 df1 df2 Sig.F更改 1 .904a .817 .780 2.497982 .817 22.288 5 25 .000 2 .904b .816 .788 2.451333 .000 .038 1 25 .847 3 .901c .811 .790 2.440634 -.005 .765 1 26 .390 1.960 a.预测变量: (常量),跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间。 b.预测变量: (常量),跑步时每分钟心跳次数,体重,年龄,跑15英里的时间。 c.预测变量: (常量),跑步时每分钟心跳次数,年龄,跑15英里的时间。 d.因变量: 耗氧量 整个回归模型的修正R2=0.790,表明模型拟合程度较好,Durbin-Watson值=1.96接近2,表明残差的度量性很好。 Anovaa 模型 平方和 df 均方 F Sig. 1 回归 695.384 5 139.077 22.288 .000b 残差 155.998 25 6.240 总计 851.382 30 2 回归 695.147 4 173.787 28.921 .000c 残差 156.235 26 6.009 总计 851.382 30 3 回归 690.551 3 230.184 38.643 .000d 残差 160.831 27 5.957 总计 851.382 30 a.因变量: 耗氧量 b.预测变量: (常量),跑步时每分钟心跳次数,体重,休息时每分钟心跳次数,年龄,跑15英里的时间。 c.预测变量: (常量),跑步时每分钟心跳次数,体重,年龄,跑15英里的时间。 d.预测变量: (常量),跑步时每分钟心跳次数,年龄,跑15英里的时间。 回归模型的F值较大,P值远小于0.05,故回归模型是有统计学意义的。 系数a 模型 非标准化系数 标准系数 t Sig. 相关性 共线性统计量 B 标准误差 试用版 零阶 偏 部分 容差 VIF 1 (常量) 116.046 11.607 9.998 .000 年龄 -.280 .103 -.274 -2.719 .012 -.305 -.478 -.233 .721 1.387 体重 -.051 .058 -.079 -.875 .390 -.163 -.172 -.075 .896 1.117 跑15英里的时间 -2.743 .402 -.714 -6.819 .000 -.862 -.806 -.584 .668 1.497 休息时每分钟心跳次数 -.012 .063 -.019 -.195 .847 -.346 -.039 -.017 .766 1.306 跑步时每分钟心跳次数 -.128 .052 -.246 -2.444 .022 -.398 -.439 -.209 .723 1.383 2 (常量) 115.662 11.226 10.303 .000 年龄 -.276 .099 -.270 -2.783 .010 -.305 -.479 -.234 .748 1.338 体重 -.049 .056 -.077 -.875 .390 -.163 -.169 -.073 .908 1.102 跑15英里的时间 -2.772 .365 -.722 -7.597 .000 -.862 -.830 -.638 .781 1.280 跑步时每分钟心跳次数 -.129 .051 -.249 -2.544 .017 -.398 -.446 -.214 .737 1.356 3 (常量) 111.718 10.235 10.915 .000 年龄 -.256 .096 -.251 -2.664 .013 -.305 -.456 -.223 .790 1.267 跑15英里的时间 -2.825 .358 -.736 -7.886 .000 -.862 -.835 -.660 .804 1.244 跑步时每分钟心跳次数 -.131 .051 -.252 -2.588 .015 -.398 -.446 -.216 .738 1.355 a.因变量: 耗氧量 根据回归系数的估计,可以得到多元线性回归方程: Oxygen=111.718-0.256*age-2.825*runtime-0.131*runpulse 共线性诊断a 模型 维数 特征值 条件索引 方差比例 (常量) 年龄 体重 跑15英里的时间 休息时每分钟心跳次数 跑步时每分钟心跳次数 1 1 5.950 1.000 .00 .00 .00 .00 .00 .00 2 .020 17.067 .00 .11 .02 .01 .54 .00 3 .014 20.412 .00 .19 .35 .07 .02 .01 4 .010 24.954 .01 .07 .02 .81 .23 .00 5 .005 34.721 .03 .16 .51 .00 .21 .26 6 .001 77.423 .96 .47 .10 .10 .01 .73 2 1 4.967 1.000 .00 .00 .00 .00 .00 2 .014 18.529 .00 .30 .29 .03 .01 3 .011 20.838 .01 .12 .04 .83 .00 4 .006 29.476 .03 .11 .59 .06 .21 5 .001 70.426 .96 .46 .09 .09 .79 3 1 3.978 1.000 .00 .00 .00 .00 2 .012 18.340 .00 .38
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SPSS学习系列27 回归分析 SPSS 学习 系列 27 回归 分析