关于多元线性回归的毕业论文.doc
- 文档编号:18955994
- 上传时间:2024-09-13
- 格式:DOC
- 页数:28
- 大小:1.15MB
关于多元线性回归的毕业论文.doc
《关于多元线性回归的毕业论文.doc》由会员分享,可在线阅读,更多相关《关于多元线性回归的毕业论文.doc(28页珍藏版)》请在冰点文库上搜索。
关于多元线性回归的毕业论文
摘要
许多现象往往不是简单的与某一因素有关而是要受多个因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。
当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。
本文的研究主要从四个部分来进行。
第一章从基础内容和研究对象着手,对主要研究内容进行了简单的阐述。
第二章对多元线性回归的基础进行了详细分析。
第三章介绍了中国经济的现状。
最后通过多元线性回归模型对我国工业生产总值进行了分析。
总的来说,本文在2007年全国各省市主要工业产品的产量与工业总产值的具体数据下,选用塑料、水泥、钢筋、平板玻璃、粗钢、盘条以及原煤等工业产品的产量作为研究对象,建立多元线性回归模型,并对模型做出参数估计.在此基础上对模型做出一定的解释,对于预测工业总产值具有一定的理论指导和现实意义。
关键词:
多元线性回归模型工业生产总值假设检验预测
1
Abstract
Manyphenomenaareoftennotsimplyassociatedwithanumberoffactorsbutwithvarieties.Atthispointweneedtousetwoormorefactorsasindependentvariablestoexplainchangesinthedependentvariable.Thisisalsoknownasmultipleregression.Whenmorethanoneindependentvariableandthedependentvariablearelinearrelationship,theregressionanalysisiscarriedoutbydiversityregression.
Themainresearchworkofthisthesisisdividedintofourparts.Inthefirstchapter,thethesisproceedfromthebasiccontentandobjectofstudyandelaboratemaincontentsimply.Inthesecondchapter,multiplelinearregressionmodelisanalyzeddetail.Inthethirdchapter,thethesisintroducesstatusquoofchina.Andatlast,grossindustrialproductionisanalyzedbymultiplelinearregressionmodelinthisarticle.
Overall,thisarticleusethespecificdataoftheoutputofmajorindustrialproductsandindustrialoutputinnationwideprovincesin2007,andselecttheoutputofplastics,cement,steel,plateglass,crudesteel,wirerodandrawcoalasstudyobjecttoestablishmultiplelinearregressionmodel,andthenmakethemodelparameterestimation.Basedonthis,wemakesomeexplanationstothemodel.Alloftheseareofmomentouscurrentsignificanceandfar-reachinghistoricalsignificancetotheforecastofindustrialproduction.
KeyWords:
MultiplelinearregressionmodelGrossindustrialproductionHypotheticaltestPrediction
28
目录
摘要.............................................................................................................................................1
Abstract.......................................................................................................................................2
1绪论 4
2多元线性回归分析基础 5
2.1多元线性回归定义 5
2.2多元线性回归模型........................................................................................................6
2.2.1模型的建立及矩阵表示.....................................................................................6
2.2.2模型的假设 7
2.3多元线性回归参数估计 7
2.3.1最小二乘估计和正规方程组 7
2.3.2最小二乘估计的矩阵形式 8
2.4回归拟合度评价和决定系数 9
2.4.1离差分解和决定系数 9
2.4.2决定系数的性质及修正可决系数 10
2.5统计检验 11
2.5.1回归参数的显著性检验(检验) 11
2.5.2回归方程的显著性检验(F检验) 12
2.5.3多重共线性检验 12
2.5.4异方差检验.......................................................................................................13
3中国经济现状 15
3.1中国经济现状 15
3.2工业生产总值的概述 15
4工业生产总值的多因素模型分析 16
4.1建立多因素分析模型 16
4.2数据收集 16
4.3统计检验 19
4.4计量经济学检验及模型修正 20
4.4.1异方差检验 21
4.4.2自相关检验 21
5结论.......................................................................................................................................26
致谢...................................................................................................................................27
参考文献 28
1绪论
在各个方面,变量之间的关系一般来说可分为确定性的与非确定性的两种。
确定性关系是指变量之间的关系可以用函数关系来表达的。
另一种非确定性的即所谓的相关关系。
例如人的身高与体重之间存在着关系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。
人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。
气象中的温度与湿度之间的关系也是这样的。
这是因为我们涉及的变量(如体重、血压、适度)是随机变量,上面所说的变量关系是非确定性的。
此时,便可以用到回归分析。
回归分析能帮助我们从一个变量取得的值去估计另一个变量所取的值。
工业生产总值从数值上反应一个地区的工业生产规模,是衡量一个地区的经济繁荣程度的重要指标。
研究研究工业总产值与格工业产出指标之间的关系具有非常重要的现实意义,对于做好一个地区的的工业产值预测以及制定国民经济发展规划都有的非常重要的作用。
工业总产值是指以货币表现的工业企业在一定时期内生产的已出售或可供出售的工业的产品的总量。
它是反映一定时间内工业生产总规模和,总水平的重要指标,是计算工业生产发展速度和主要比例关系,计算工业产品销售率和其他经济指标的重要依据。
工业总产值包括成品价值、工业性作业价值和自制半成品、在产品期末期初差额价值。
工业,总产值采用“工厂法”计算,即以工业企业作为一个整体,按企业工业生产活动的最终成果来计算。
但各企业之间、行业之间、地区之间存在着重复计算。
其计算公式为:
报告期工业总产值=报告期全部产品的成品价值+报告期工业性作业价值+(报告期自制半成品和在产品期末余额-报告期自制半成品和在产品期初余额)计算工业总产值采用的价格有不变价格和现行价格。
即,工业生产总值收多个因素影响,此时便需要多个影响因素来分析工业生产总值的变化。
而这些变量之间的关系是线性的,这样在分析工业生产总值是用到的回归分析方法便是多元线性回归。
2多元线性回归分析基础
2.1多元线性回归定义
在客观世界中普遍存在着变量之间的关系。
变量之间的关系一般来说可分为确定性的与非确定性的两种。
确定性关系是指变量之间的关系可以用函数关系来表达的。
另一种非确定性的即所谓的相关关系。
例如人的身高与体重之间存在着关系,一般来说,人高一些,体重也要重一些,但同样高度的人,体重往往不相同。
人的血压与年龄之间也存在着关系,但同年龄的人的血压往往不相同。
气象中的温度与湿度之间的关系也是这样的。
这是因为我们涉及的变量(如体重、血压、适度)是随机变量,上面所说的变量关系是非确定性的。
此时,便可以用到回归分析。
回归分析能帮助我们从一个变量取得的值去估计另一个变量所取的值。
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。
事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。
因此多元线性回归比一元线性回归的实用意义更大。
在研究问题是,我们考虑一个变量受其他变量的影响时,把这变量称为因变量,记为,其他变量称为自变量,记为,这时相关系数可记作
其中为当时,因变量的均值,即
.
称为对的回归函数,为与的偏差,它是随机变量,并假定。
回归函数可以是一元函数,也可以是多元函数,即
其中为元回归函数,统称为多元回归函数。
2.2多元线性回归模型
2.2.1模型的建立及矩阵表示
多元线性回归模型的一般形式是:
(2.1)
其中是回归系数,Y是被解释变量,,,是k个对Y有显著影响的解释变量(k2),是反映各种误差扰动综合影响的随机项,下标i表示第i期观察值(,,,),。
假设多元样本回归函数为:
回归残差为:
。
由于有n期的观察值,这一模型实际上包含个方程
写成矩阵形式:
(2.2)
其中
2.2.2模型的假设
因为多元线性模型的建立或选择过程包含相当的主观性,所依据的理论和经验也可能不正确,因此并不能保证模型符合变量的实际关系。
而如果模型本身有问题,那么分析的有效性和价值就很难有保证,为了保证所分析的变量关系符合多元线性回归分析的基本规定性,明确分析对象,保证回归分析的有效性和性质,也为了检验判断的依据,需要对多元线性回归模型作一些架设,共包括下列六条:
(1)变量和,,,(=1,2...n)之间,存在线性随机函数关系,其中是随机误差项。
(2)对应每组观测数据的误差项,都为零均值的随机变量,即的数学期望E()=0对=1,2...n都成立。
(3)误差项的方差为常数,即对=1,2...n都成立(假设
(2)成立为前提)。
(4)对应不同观测数据的误差项不相关,即
对任意的都成立(假设
(1)成立为前提)。
(5)解释变量是确定性变量而非随机变量。
当存在多个解释变量(r>1)时假设不同解释变量之间不存在线性关系,包括严格的线性关系和强的近似线性关系。
(6)误差项服从正态分布[7]。
2.3多元线性回归参数估计
2.3.1最小二乘估计和正规方程组
这里直接根据回归残差平方和最小的准则,推导多元线性回归模型参数的最小二乘估计量。
对于多元线性回归模型,
如果用,…,分别表示模型参数,…,的估计,那么样本回归方程就是
回归残差平方和为:
(2.3)
当V对,…,的一阶偏导数都等于0,即下列方程组:
,
,
同时成立时,有最小值。
对这个方程组整理,可得到如下的正规方程组:
其中
,
上述正规方程组有K+1个方程,未知数也是K+1个。
只要系数矩阵非奇异即满足
解释变量矩阵列满秩:
。
此时,有,可逆。
可以解出,…,的唯一的一组解,就是,…,的最小二乘估计[8]。
2.3.2最小二乘估计的矩阵形式
引进参数估计量,解释变量回归值和回归残差的下列向量表示:
,,(2.4)
把样本数据分别带入样本回归方程,得到回归方程组为:
(2.5)
写成等价的向量方程,则为:
这样回归残差向量为:
在利用向量,矩阵的运算法则,可以得到残差平方和为
=
求对,…,的偏导数,等价于对向量求梯度,因此最小二乘估计的正规方程组为:
整理得到矩阵形式:
当可逆,也就是是满秩矩阵,在上述向量方程两端左乘的逆矩阵,得到:
(2.6)
这就是多元线性回归模型最小二乘估计的矩阵一般形式。
2.3.3最小二乘估计量的性质
(1)线性性:
多元线性回归模型参数的最小二乘估计向量为:
,各个参数的最小二乘估计向量为,其中的是矩阵的+1行元素构成的行向量,上式对=1,…,K都成立,正是被解释变量观测值的线性组合,也就是多元线性回归参数的最小二乘估计是线性估计。
(2)无偏性:
多元线性回归的最小二乘估计也是无偏估计,即参数最小二乘估计量的数学期望都等于相应参数的真实值,最小二乘估计向量的数学期望等于参数真实值的向量,参数真实值是参数估计量的概率分布中心。
(3)最小方差性:
根据最小二乘估计公式和模型假设,可以直接导出包含各个参数估计量方差和不同参数估计量协方差的,参数估计向量的协方差矩阵为:
(2.7)
2.4回归拟合度评价和决定系数
2.4.1离差分解和决定系数
判断回归结果好坏基本标准,是回归直线对样本数据的逆合程度,称为“拟合度”。
回归直线的逆合度一方面取决于回归直线的选择,这就是由参数估计方法决定的,另一方面则取决于样本数据的分布。
当参数估计方法固定时,主要取决于样本数据的分布。
样本数据的分布在本质上是由变量关系决定的。
因此回归拟合度也是检验模型变量关系真实性,判断模型假设是否成立的重要方法。
拟合度较好是对模型的支持,否则,可能意味着必须对模型进行修改。
首先需要从Y的离差中分离出由解释变量决定的部分,因变量的实际观测值与其样本均值的离差即总离差()可以分解为两部分:
一部分是因变量的理论回归值与其样本均值的离差(),它可以看成是能够由回归直线解释的部分,称为可解释离差;另一部分是实际观测值与理论回归值的离差(),它是不能由回归直线加以解释的残差。
对任一实际观测值Y总有:
(2.8)
对公式(2.8)两边平方并求和并计算,可得到:
根据最小二乘估计和回归残差的相关公式,所有的离差的平方和记为=称为“总离差平方和”,而记为称为“残差平方和”,记为称为“回归平方和”。
式(2.9)两边同除以,得:
(2.10)
显而易见,各个样本观测点与样本回归直线靠的越近,在中所占的比重就越大。
(2.10)式中的正是反映解释变量(或回归直线)对被解释变量决定程度的指标,我们称它为“决定系数”(determinedcoefficient),通常用表示。
计算公式为:
2.4.2决定系数的性质及修正可决系数
决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。
决定系数越小,则模型对样本的拟合程度越差。
决定系数具有如下性质:
(1)决定系数具有非负性。
由决定系数的定义式可知,的分子分母均是不可能为负值的平方和,因此其比
值必大于零。
(2)判定系数的取值范围为01。
由的计算公式可以看出:
当所有的观测值都位于回归直线上时,=0,这时=1,说明总离差可以完全由所估计的样本回归直线来解释;当观测值并不是全部位于回归直线上时,>0,则/>0,这时<1;当回归直线没有解释任何离差,即模型中解释变量与因变量完全无关时,的总离差全部归于残差平方和,即=,这时=0。
(3)判定系数是样本观测值的函数,它也是一个统计量。
判定系数的大小受到自变量的个数k的影响。
可以证明,增加自变量的个数,回归平方和增大,从而使得增大。
由于增加自变量个数引起的增大与拟合好坏无关,在含自变量个数k不同的模型之间比较拟合程度时,就不是一个合适的指标,必须加以调整。
调整方法为:
把残差平方和与总离差平方和之比的分子分母分别除以各自的自由度,变成均方差之比,以剔除自变量个数对拟合优度的影响。
调整的判定系数为:
(2.11)
用这个调整的决定系数作为评价多元线性回归拟合度的评价标准,可以基本消除由于解释变量数目的差异所造成的影响,更加合理和具有可比性。
2.5统计检验
2.5.1回归参数的显著性检验(检验)
先要找出回归系数的分布,由上述知识得知:
(2.12)
其中为的第j行j列的元素。
将标准化。
一般有未知,用代替,得统计量,以下可用统计量来进行回归系数的假设检验。
同一元线性回归一样,要检验解释变量对因变量的线性作用是否显著,要使用检验。
步骤如下:
(1)提出假设。
(2)在成立条件下,根据样本计算
(3)给定显著性水平,查表得临界值
(4)判断
若,就拒绝,对有显著线性作用;
若,就接受,对线性作用不显著。
2.5.2回归方程的显著性检验(检验)
多元线性回归模型还可以进行模型总体显著性检验,也就是全体解释变量总体对被解释变量是否存在明显影响的检验,回归显著性检验的基本方法,是检验模型常数项以外所有参数同时为0的假设,使用检验。
步骤如下:
(1)提出假设。
不全为0
(2)选择、(根据样本)计算统计量
(3)给定显著性水平,查表,得
(4)判断
若,就拒绝,回归方程显著成立,所有自变量对Y的影响是显著的;
若,就接受,回归方程不显著,所有自变量对Y的线性作用不显著。
2.5.3多重共线性检验
在多元线性回归模型中,对的基本假定是:
矩阵的各列向量之间是线性无关的,即有:
如果这一假定不满足,则称模型存在多重共线性。
多重共线性表现为两种情况:
(1)完全多重共线性:
,也就是,不存在。
(2)不完全多重共线性:
(实际中多为此情况),对角线元素较大。
而一般产生多重共线性的背景为:
(1)时间序列数据中经济变量在时间上常有共同的变动趋势;
(2)经济变量之间本身具有内在联系(常在截面数据中出现);
(3)由于某种决定性因素的影响可能使各个变量向着同方向变化;
(4)滞后变量引入模型,同一变量的逐次值一般都存在相互关系;
多重共线性的检验方法有:
(1)简单相关系数矩阵法(辅助手段)
此法简单易行;但要注意两变量的简单相关系数包含了其他变量的影响,并非它们真实的线性相关程度的反映;一般在0.8以上可初步判定它俩之间有线性相关。
(2)变量显著性与方程显著性综合判断;
(修正)可决系数大,值显著大于临界值,而值不显著;那么可认为存在多重共线性。
(3)辅助回归:
将每个解释变量对其余变量回归,若某个回归方程显著成立,则该解释变量和其余变量有多重共线性。
多重共线性的克服和处理方法有:
截面数据和时序数据结合,有时在时间序列数据中多重共线性严重的变量,在截面数据中不一定有严重的共线性。
在假定截面数据估计出的参数在时间序列数据中变化不大的前提下,可先用截面数据估计出一些变量的参数,再代入原模型估计另一些变量的参数。
变换模型形式(差分法):
假设和存在高度线性相关。
设原模型为:
将其滞后一期:
将上述两式相减,得:
则上述差分式子变成:
差分后,和的共线性将明显减弱。
2.5.4异方差检验
在回归模型的假设得到满足之后,用最小二乘法估计的模型参数具有无偏和方差在线性无偏估计方法中最小的有效性,在这些假设中,其中有一条是误差项的方差不变。
如果误差项的方差随观测次数的改变而改变,或随解释变量增减而变化,则称回归模型中存在异方差。
异方差可以表示为或
其中异方差的的发现和检验方法有戈德菲尔德-夸特检验:
构造统计量:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关于 多元 线性 回归 毕业论文