书签分享收藏举报版权申诉 / 19

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 天文地理 > 整理第6章回归分析.docx

整理第6章回归分析.docx

文档编号：11543066
上传时间：2023-06-01
格式：DOCX
页数：19
大小：29.73KB

整理第6章回归分析.docx

《整理第6章回归分析.docx》由会员分享，可在线阅读，更多相关《整理第6章回归分析.docx（19页珍藏版）》请在冰点文库上搜索。

整理第6章回归分析.docx

整理第6章回归分析

（1）非煤矿矿山的建设项目（注：

对煤矿建设项目有单独特别规定）；

（三）环境影响评价的原则

环境的两个特点：

规划环境影响的跟踪评价应当包括下列内容：

在可行性研究时应进行安全预评价的建设项目有：

本章中环境影响评价制度，2010年的真题中全部集中在环境影响评价这一节。

环境保护的对象，环境影响评价制度，环境影响评价文件的组成、文件的报批等是历年考试的热点。

第6章回归分析

变量之间的联系可以分为两类，一类是确定性的，另一类是非确定性的。

确定型的关系是指某一个或某几个现象的变动必然会引起另一个现象确定的变动，他们之间的关系可以使用数学函数式确切地表达出来，即y=f（x）。

当知道x的数值时，就可以计算出确切的y值来。

如圆的周长与半径的关系：

周长=2πr。

非确定关系则不然，例如，在发育阶段，随年龄的增长，人的身高会增加。

但不能根据年龄找到确定的身高，即不能得出11岁儿童身高一定就是1米40公分。

年龄与身高的关系不能用一般的函数关系来表达。

研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。

如果把其中的一些因素作为自变量，而另一些随自变量的变化而变化的变量作为因变量，研究他们之间的非确定因果关系，这种分析就称为回归分析。

在本章，我们将讲解回归分析有关的内容，而在下一章，我们将讲解相关分析的具体操作方法。

在SppS10.0Forwindows中回归分析分为以下几种：

（主要讲前三种）

●Linear：

线性回归分析（data09-03）

●CurveEstimation：

曲线回归分析（data13-01）

●BinaryLogistic：

二维Logistic回归分析（data13-02）

●MultinomialLogistic：

多维Logistic回归分析

●Ordinal：

Ordinal回归分析

●Proibit：

概率单位回归分析

●Nonlinear：

非线性回归分析

●WeightEstimation:

加权估测分析

●2-StageLeastSquares:

两阶最小二乘分析

8.1线性回归（data09-03）

一元线性回归方程（卫生统计114～121页）

直线回归分析的任务就是根据若干个观测（Xi，yi）i=1～n找出描述两个变量X、y之间关系的直线回归方程y^=a+bx。

y^是变量y的估计值。

求直线回归方程y^=a+bx,实际上是用回归直线拟合散点图中的各观测点。

常用的方法是最小二乘法。

也就是使该直线与各点的纵向垂直距离最小。

即使实测值y与回归直线y^之差的平方和Σ（y-y^）2达到最小。

Σ（y-y^）2也称为剩余（残差）平方和。

因此求回归方程y^=a+bx的问题，归根到底就是求Σ（y-y^）2取得最小值时a和b的问题。

a称为截距，b为回归直线的斜率，也称回归系数。

一元线性回归方程的适用条件

（l）线形趋势：

自变量与因变量的关系是线形的，如果不是，则不能采用线性回归来分析。

（2）独立性：

可表述为因变量y的取值相互独立，它们之间没有联系。

反映到模型中，实际上就是要求残差间相互独立，不存在自相关。

（3）正态性：

自变量的任何一个线形组合，因变量y均服从正态分布，反映到模型中，实际上就是要求随机误差项εi服从正态分布。

（4）方差齐性：

自变量的任何一个线形组合，因变量y的方差均齐性，实质就是要求残差的方差齐。

概括起来，“独立”、“线性”、“正态”、“等方差”是线性回归的四个条件。

一元线性回归方程的检验

根据原始数据，求出回归方程后就需要对回归方程进行检验。

检验的假设是总体回归系数为0。

另外要检验回归方程对因变量的预测效果如何。

（1）回归系数的显著性检验

①对斜率的检验，假设是：

总体回归系数为0。

检验该假设的t值计算公式是；t=b/SEb,其中SEb是回归系数的标准误。

②对截距的检验，假设是：

总体回归方程截距a=0。

检验该假设的t值计算公式是：

t=a/SEa,其中SEa是截距的标准误。

（2）R2判定系数

在判定一个线性回归直线的拟合优度的好坏时，R2系数是一个重要的判定指标。

R2判定系数等于回归平方和在总平方和中所占的比率，即R2体现了回归模型所能解释的因变量变异性的百分比。

如果R2=0.775，则说明变量y的变异中有77.5％是由变量X引起的。

当R2＝1时，表示所有的观测点全部落在回归直线上。

当R2=0时，表示自变量与因变量无线性关系。

为了尽可能准确的反应模型的拟合度，SPSS输出中的AdjustedRSquare是消除了自变量个数影响的R2的修正值。

（3）方差分析

体现因变量观测值与均值之间的差异的偏差平方和SSt是由两个部分组成的，即回归平方和SSr，反应了自变量X的重要程度；残差平方和SSe，它反应了实验误差以及其他意外因素对实验结果的影响。

表示为SSt=SSr＋SSe。

这两部分除以各自的自由度，得到它们的均方。

统计量F=回归均方／残差均方。

当F值很大时，拒绝接受b=0的假设。

（4）Durbin－Watson检验

在对回归模型的诊断中，有一个非常重要的回归模型假设需要诊断，那就是回归模型中的误差项的独立性。

如果误差项不独立，那么对回归模型的任何估计与假设所作出的结论都是不可靠的。

其参数称为DW或D。

D的取值范围是0＜D＜4，统计学意义如下：

①当残差与自变量互为独立时D≈2。

③当相邻两点的残差为正相关时，D<2。

③当相邻两点的残差为负相关时，D>2。

（5）残差图示法；在直角坐标系中，以预测值y^为横轴，以y与y^之间的误差et为纵轴（或学生化残差与拟和值或一个自变量），绘制残差的散点图。

如果散点呈现出明显的规律性则,认为存在自相关性或者非线性或者非常数方差的问题。

多元线性回归

1.多元线性回归的概念（卫生统计132页）

根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。

多元回归分析的模型为：

y^=b0+b1x1+b2x2++bnxn

其中y^为根据所有自变量X计算出的估计值,b0为常数项,b1、b2bn称为y对应于x1、x2xn的偏回归系数。

偏回归系数表示假设在其他所有自变量不变的情况下，某一个自变量变化引起因变量变化的比率。

多元线性回归模型也必须满足一元线性回归方程中所述的假设理论。

2.多元线性回归分析中的参数

（l）复相关系数R。

复相关系数表示因变量y与其他的自变量xi之间线性相关密切程度的指标，复相关系数使用字母R表示。

复相关系数的取值范围在0－1之间。

其值越接近1表示其线性关系越强，越接近0表示线性关系越差。

（2）R2判定系数与经调整的判定系数

与一元回归方程相同，在多元回归中也使用判定系数R2来解释回归模型中自变量的变异在因变量变异中所占比率。

但是，判定系数的值随着进入回归方程的自变量的个数（或样本容量的大小n）的增加而增大。

因此，为了消除自变量的个数以及样本量的大小对判定系数的影响，引进了经调整的判定系数（AdjustedRSquare）。

（3）零阶相关系数、部分相关与偏相关系数

①在这里零阶相关系数（Zero－Order）计算所有自变量与因变量之间的简单相关系数。

②部分相关（PartCorrelation）表示：

在排除了其他自变量对xi的影响后，当一个自变量进入回归方程模型后，复相关系数的平均增加量。

③偏相关系数（PartialCorrelation）表示：

在排除了其他变量的影响后；自变量Xi与因变量y之间的相关程度。

部分相关系数小于偏相关系数。

偏相关系数也可以用来作为筛选自变量的指标，即通过比较偏相关系数的大小判别哪些变量对因变量具有较大的影响力。

3多元线性回归分析的检验

建立了多元回归方程后，需要进行显著性检验，以确认建立的数学模型是否很好的拟和了原始数据，即该回归方程是否有效。

利用残差分析，确定回归方程是否违反了假设理论。

对各自变量进行检验。

其假设是总体的回归方程自变量系数或常数项为O。

以便在回归方程中保留对因变量y值预测更有效的自变量。

以便确定数学模型是否有效。

（l）方差分析

与一元回归方程的检验相同，多元回归方程也采用方差分析方法对回归方程进行检验，检验的假设是总体的回归系数均为0（无效假设）或不全为0（备选假设）（卫生统计四版135页）。

它是对整个回归方程的显著性检验。

使用统计量F进行检验。

原理与一元回归的方程分析原理相同。

F=回归均方/残差均方

（2）偏回归系数与常数项的检验

检验的假设是：

各自变量回归系数为0，常数项为零。

它使用的统计量是t（卫生统计四版136页）。

t=偏回归系数/偏回归系数的标准误

（3）方差齐性检验

方差齐性是指残差的分布是常数，与预测变量或因变量无关。

即残差应随机的分布在一条穿过0点的水平直线的两侧。

在实际应用中，一般是绘制因变量预测值与学生残差的散点图。

在线性回归Plots对话框中的源变量表中,选择SRESID（学生氏残差）做Y轴；选择ZPRED（标准化预测值）做X轴就可以在执行后的输出信息中显示检验方差齐性的散点图。

（4）回归模型残差的正态性检验（略）

检验的方法多种多样，其中最直观、最简单的方法是残差的直方图和累积概率图。

需要指出的是，希望残差完全服从于正态分布也是不现实的，即使存在很理想的总体数据，其样本的残差的分布也只能是近似于正态分布。

①残差的直方图。

在Plots子对话框中，选择histogram选择项就可以得到残差的直方图。

②残差的累积概率图（P－P图）。

P－P图是一种概率分布图，它是用来判断一个变量的分布是否符合一个特定的“检测分布”。

这个检测分布包括；Beta分布，Chi-square分布，Exponential分布，Gamma分布，Half-normal，Laplace分布，Logistic分布，Lognormal分布，Normal分布，Pareto分布，Student't分布．Weibull分布，Uniform分布。

如果两种分布基本相同，那么在P-P图中点应该围绕在一条斜线的周围，如果两种分布完全相同，那么在P－P图中点应该只有一条斜线。

通过观察比较观测数据的残差（曲线）在假设直线（正态分布）周围的分布可以对两种分布进行比较。

（5）残差图示法

利用残差图可以判断模型拟和效果。

在残差图中如果各点呈随机状，并绝大部分落在±2σ范围（68％的点落在±σ之中,96％的点落在±2σ之中）内，说明模型对于数据的拟和效果较好。

如果大部分点落在±2σ范围之外，说明模型对于数据的拟和效果不好。

线性回归方程的建立

l．变量间线性关系的初步探索

在获得数据后，应将所得到的数据绘图，探索因变量随自变量变化的趋势。

以便确定数据是否适合线性模型。

如果数据之间大致呈线性关系，可以建立线性回归方程。

如果图中数据不呈线性分布，那么还可以根据其他回归方程模型的观测量分布图形特点以及建立各方程后所得的判定系数R2进行比较后确定一种最佳模型。

见曲线拟合及非线性回归。

通过散点图还可以发现奇异值，如图中画圈的观测值要认真检查数据的合理性。

2．建立线性模型的操作步骤

（1）analyze--regression--linear

（2）选择一个因变量进入dependent,选择一个或多个自变量进入independent。

（3）在Method框中选择一种回归分析方法

①Enter选项，强行进入法，即所选择的自变量全部进人回归模型，该选项是默认方式。

②Remove选项，消去法，建立的回归方程时，根据设定的条件剔除部分自变量。

③Forward选项，向前选择法，根据在option对话框中所设定的判据，从无自变量开始。

在拟合过程中，对被选择的自变量进行方差分析，每次加入一个F值最大的变量，直至所有符合判据的变量都进入模型为止。

第一个引入归模型的变量应该与因变量间相关系数绝对值最大。

④Backward选项，向后剔除法，根据在option对话框中所设定的判据，先建立全模型，然后根据设置的判据，每次剔除一个使方差分析中的F值最小的自变量，直到回归方程中不再含有不符合判据的自变量为止。

⑤Stepwise选项，逐步进入法，它是向前选择变量法与向后剔除变量方法的结合。

根据在option对话框中所设定的判据，首先根据方差分析结果选择符合判据的自变量且对因变量贡献最大的进入回归方程。

根据向前选择变量法则选入变量。

然后根据向后剔除法，将模型中F值最小的且符合剔除判据的变量剔除出模型，重复进行直到回归方程中的自变量均符合进入模型的判据，模型外的自变量都不符合进入模型的判据为止。

（4）根据变量值选择参与回归分析的观测量，将作为参照的变量进入SelectionVariable框中，单击Rule按钮。

打开SetRule对话框。

共线性问题（略）

在回归方程中，虽然各自变量对因变量都是有意义的，但某些自变量彼此相关，即存在共线性的问题。

给评价自变量的贡献率带来困难。

因此，需要对回归方程中的变量进行共线性诊断；并且确定它们对参数估计的影响。

进行共线性论断常用的参数有：

条件参数、容许度、方差膨胀因子（VIF）等。

当一组自变量精确共线性时，必须删除引起共线性的一个和多个自变量，否则不存在系数唯一的最小二乘估计。

因为删除的自变量并不包含任何多余的信息，所以得出的回归方程并没有失去什么。

当共线性为近似时，一般是将引起共线性的自变量删除，但需要掌握的原则是：

务必使丢失的信息最少。

（l）容许度（Tolerance）

在只有两个自变量的情况下，自变量X1与X2之间共线性体现在两变量间相关系数r12上。

精确共线性时对应r122＝1，当它们之间不存在共线性时r122＝0。

r122越接近于1，共线性越强。

多于两个自变量的情况，Xi与其他自变量互之间的复相关系数的平方体现其共线性。

称它为R2i。

它的值越接近1，说明自变量之间的共线性程度越大。

容许度定义为Toli＝l一R2i

★当容许度的值较小时，自变量Xi与其他自变量X之间存在共线性。

使用容许度作为共线性量度指标的条件是，观测量应大致近似于正态分布，但在大多数情况下观测量的正态分布的假设是不被接受的。

而且，由于容许度中相关系数对极端值极为敏感,所以用它来作为共线性的量度指标是不适合的。

（2）方差膨胀因子（VIF）

★方差膨胀因于（VIF）定义为VIF＝1/（l一R2i），即它是容许度的倒数。

它的值越大，自变量之间存在共线性的可能性越大。

（3）条件参数（ConditionIndex）

★条件参数是在计算特征值时产生的一个统计量，其具体含义尚不大清楚，但己经提出一些原则：

其数值越大，说明自变量之间的共线性的可能性越大；有些学者提议，条件参数≥30时认为有共线性存在的可能性，但理论上并没有得到证明。

特征值（Eigenvalue）如果很小，就应该怀疑共线性的存在。

（4）共线性问题的解决方法

共线性问题是建立回归模型过程中比较常见而又较难克服的问题。

由于篇幅限制，本文仅给出一些常用方法原则。

①剔除不重要的有共线性问题的自变量。

注意这里强调的是去除不重要的自变量，否则有可能导致“解释错误”。

②增加样本量。

增大样本量可以减少回归模型中参数估计的残差。

③重新抽取样本数据。

不向样本的观测量的共线性是不一致的，所以重新抽取样本数据有可能减少共线性问题的严重程度。

变非线性关系为线性关系（略）

有时因变量与自变量的关系不是线性关系，而利用其他的方法也未能很好地拟和数据时，就需要进行数据的非线性到线性关系的转换。

如果因变量或残差不符合假设条件时也需要进行转换，可以参考有关书籍。

线性回归分析实例（data09-03）

操作步骤：

（1）Graphs—Sactter—Simple

将Salbegin、salary选入Y轴、X轴

（2）analyze--regression--linear

选择一个因变量salary进入dependent,选择Salbegin、prevexp、jobtime、jobcat、educ自变量进入independent；

Statistics-Residuals-Casewisediagnostics—3;Collinearitydiagnostics

Plots—ZPRED、ZRESID选入Y轴、X轴

结果分析：

（1）被引入与被剔除的变量，见表1。

第一列：

Model为回归方程模型编号。

第二列：

VariablesEntered为引入回归方程的自变量名称。

第三列：

VariablesRemoved为从回归方程中被剔除的自变量名称。

第四列：

Method为自变量进入与被剔除回归方程的判据。

从表1可以看出，5个被选择的自变量经过逐步回归过程都进入了回归方程，没有被剔除的变量。

第一步回归方程中包含常数项（Constant）和自变量BeginningSalary（标签）。

第二步完成时，回归方程中包含常数项（Constant）和自变量BeginningSalary,EmploymentCategory；以后各步回归方程中包含的常数项（Constant）和自变量可以依次类推。

因变量（DependentVariable）为CurrentSalary。

（2）回归方程常用统计量，见表2。

第一列：

Modl为回归方程模型编号。

第二列：

R为回归方程的复相关系数。

第三列：

RSquare即R2系数，随着自变量个数的增加，R2系数的值也在不断增加，这是所有线性回归方程的共同规律，但是这并不意味着变量越多，模型的拟和度越佳。

第四列：

AdjustedRSquare即修正R2，为了尽可能的确切的反映模型的拟和度，该参数试图修正R2系数的偏差，它未必随着变量的个数的增加而增加。

第五列：

Std.ErroroftheEstimate为估计的标准误，增加自变量的个数将增大R2系数，但未必会减少估计的标准误。

除非需要，自变量数量不应太多，因为多余的自变量会给解释回归方程造成困难。

一个包含多余自变量的模型不但不会改善预测值，反而有可能增加标准误差。

由表2的R2以及修正的R2值得出建立的回归方程的线性关系比较满意。

（3）方差分析，见表3。

表3为回归拟合过程中每一步的方差分析结果。

SumofSquare为回归平方和（Regrssion）、残差平方和（Residual）、总平方和（Total），df为自由度，Sig.为大于F值的概率。

方差分析结果表明，当回归方程包含不同的自变量时，其显著性概率值均为0.000。

拒绝回归系数均为0的原假设。

（4）回归系数分析，见表4。

Model为回归方程模型编号，UnstandardizedCoefficients为非标准化系数，StandardizedCoefficients为标准化系数，t检验为偏回归系数为O（和常数项为0）的假设检验的t值，Sig.为偏回归系数为O（和常数项为0）的假设检验的显著性水平值，CollinearityStatistics为共线性统计量。

B偏回归系数：

它是在控制了其他变量之后得到的。

它的不足之处在于，当自变量的单位不一致时，比较它的大小变得毫无意义。

也就是说只有当所有的自变量单位统一时，它们的大小才有可比性。

比较偏回归系数时还应注意，在多元回归分析中，方差分析是对整个回归方程的显著性检验，它与单独的进行每一个偏回归系数的显著性检验不一定等效，就是说，

由方差分析得出回归方程有统计意义，而回归方程这的每一个偏回归系数不一定都有显著性，但至少有一个是显著的。

Beta系数：

它是对B偏回归系数B的改进：

当所有的变量使用标准化（Z分数）形式表示时，它具有可比性。

但是从绝对意义上讲。

使用Beta系数也不能比较出哪一个自变量更为重要。

由表3回归方程编号得出的逐步回归过程的每一步的结果。

模型1：

Currentsalary=1928.206十1.909*Beginningsalary。

其常数项的显著水平值为O.031，自变量Beginningsalary的显著水平值为O.000。

模型2：

Currentsalary=1036.931十1.469*Beginningsalary十5947.000Employmentcategory。

其常数项的显著水平值0.213，自变量Beginningsalary的显著水平值为O.000，自变量Employmentcategory的显著水平值为O.000。

它们的共线性诊断的指标容忍度（To1erance）分别为（常数项除外）0.430、O.430，0.996,大小适中，不是很小。

膨胀方差因子（VIF）分别为（常数项除外）2.323、2.323，数值不大，从而可以拒绝它们之间的共线性假设。

模型3：

Currentsalary=3039.205十1.467*Beginningsalary十6160.294Employmentcategory一23.749*PreviousExperience。

常数项、自变量Beginningsalary、Employmentcategory、PreviousExperience的显著水平值均为0.000。

这里要特别注意的是，在分析回归方程中的自变量时，原来工作经历（PreviousExperience）时需要特别小心，因为它给出的信息是原来的工作经验越长，当前的工资水平却越少，至于产生这样原因还要从数据的来源中分析。

它们的共线性诊断的指标容忍度（To1erance）分别为（常数项除外）0.430、O.430，0.996,大小适中，不是很小。

膨胀方差因子（VIF）分别为（常数项除外）2.323、2.323、1.004，数值不大，从而可以拒绝它们之间的共线性假设。

模型4和5的分析同上。

（5）共线性诊断，见表5。

（略）

Model为回归方程模型编号，Dimension为维数，Eigenvalue为特征值，ConditionIndex为条件参数，VarianceProportions方差比例。

从表5特征值一栏看到，回归方程模型编号为4、5的模型中，其特征值很低，分别为7.385E-03、6.824E-03；其条件指标较高，分别为24.026、27.634；从方差比例一栏中观察常数项（Constant）与自变量（Monthssincehire）所占的比例分别为0.98、0.97与0.97、0.79，方差比例都很大，因此有理由怀疑常数项与自变量Monthssincehire之间存在较强的共线性，还需要进一步的进行判别。

（6）奇异值（指有很大标准化残差的观测值）诊断，见表6。

（略）

CaseNumber为奇异值观测量编号，Std.Residual为标准化残差，CurrentSalary为当前值，PredictedValue为预测值，Residual残差。

由表6得到的奇异值列表，给出了被怀疑为奇异值的观测量的编号，这些观测量之所以被怀疑为奇异值是因为它们的标准化残差值都大于3（奇异值是指有很大标准化残差的观测量，系统默认标准是标准化残差的绝对值大于3），当然这个标准是可以改变的。

（7）残差统计分析，见表7。

（略）

由表7着重注意观察Mahal.Distance、Cook'sDistance、CenteredLeverageValue的最大值与最小值，它可以发现观测量数据中是否有影响点。

Cook'sDistance：

一个被认为是影响点的观测量被