计量经济学 全套讲义Word下载.doc
- 文档编号:1010865
- 上传时间:2023-04-30
- 格式:DOC
- 页数:175
- 大小:3.87MB
计量经济学 全套讲义Word下载.doc
《计量经济学 全套讲义Word下载.doc》由会员分享,可在线阅读,更多相关《计量经济学 全套讲义Word下载.doc(175页珍藏版)》请在冰点文库上搜索。
把带入
(2),有:
关于正规方程的直觉:
无论用何种估计方法,我们都希望残差所包含的信息价值很小,如果残差还含有大量的信息价值,那么该估计方法是需要改进的!
对模型利用OLS,至少我们能保证
(1):
残差均值为零;
(2)残差与解释变量x不相关【一个变量与另一个变量相关是一个重要的信息】。
练习:
(1)利用离差之和为零的代数性质,验证:
补充:
定义y与x的样本协方差为:
;
x的样本方差为,则
我们用表示总体协方差,表示总体方差。
上述定义的样本协方差及其样本方差分别是对总体协方差及其总体方差的一个有偏估计;
及其
才分别是对总体协方差及其总体方差的一个无偏估计。
(2)假定,用OLS法拟合一个过原点的直线:
,求证在OLS法下有:
并验证:
笔记:
①现在只有一个正规方程,该正规方程同样表明。
②无截距回归公式的一个应用
假定y与x真实的关系是:
对(3),按照无截距回归公式,有:
(3)假定,用OLS法拟合一水平直线,即:
,求证。
四、一些基本的性质
对于简单线性回归模型:
,在OLS法下,存在如下代数性质:
(一)拟合直线过点,。
(二)由正规方程
(1)可知,残差之和为零。
注释:
只有拟合直线带有截距时才存在正规方程
(1)。
(三)由正规方程
(2)可知,残差与x的样本协方差为零,即残差与x样本不相关。
【注意:
该性质的获得也利用了性质
(二)】。
证明残差与也是样本不相关的。
(四)定义
其中TSS、ESS、RSS分别被称为总平方和、解释平方和与残差平方和。
则:
TSS=ESS+RSS。
证明:
(1)基于前述对Var(x)、Cov(x,y)的定义,验证:
其中a,b是常数本讲义一般利用Var(x)及其Cov(x,y)表示样本方差和协方差,但有时为表述方便,也用它们来表示总体方差和协方差。
但无论如何,此处的公式在两种情况下都是可用的。
(2)对于简单线性回归模型:
,在OLS法下,证明
提示:
(五)为了判断拟合直线对观测值的拟合程度,我们定义判定系数。
显然,,而意味着各残差都为零,即拟合直线与样本数据完全拟合。
R2也是与的样本相关系数r的平方。
(1)对于简单线性回归模型:
,在OLS法下,证明R2是y与x的样本相关系数的平方。
(2)对于模型:
,在OLS法下,证明R2=0。
一个警告!
软件包通常是利用公式,其中来计算R2。
应该注意到,我们在得到结论
时利用了的性质,而该性质只有在拟合直线带有截距时才成立,因此,如果拟合直线无截距,则上述结论并不一定成立,因此,此时我们不能保证R2为一非负值。
总而言之,在利用R2时,我们的模型一定要带有截距。
当然,还有一个前提是,我们所采用的估计方法是OLS。
五、R2、调整的R2、自由度
我们估计总体均值至少需要一个观测值,估计总体方差至少需要两个观测值,进而推之,需要估计的参数越多,那么对样本容量的要求越高。
如果在模型中增加解释变量,那么总的平方和不变,但残差平方和至少不会增加,一般是减少的。
为什么呢?
举一个例子。
假如我们用OLS法得到的模型估计结果是:
,此时,OLS法估计等价于求解最小化问题:
令最后所获得的目标函数值(也就是残差平方和)为RSS1。
现在考虑对该优化问题再施加约束:
并求解,则得到目标函数值RSS2。
比较上述两种情况,RSS1是全局最小而RSS2是局部最小。
因此,RSS1小于或等于RSS2。
应该注意到,原优化问题施加约束后对应于模型估计结果:
因此,如果单纯依据R2标准,我们应该增加解释变量以使模型拟合得更好。
增加解释变量将增加待估计的参数,在样本容量有限的情况下,这并不一定是明智之举。
这涉及到自由度问题。
什么叫自由度?
假设变量x可以自由地取N个值,那么x的自由度就是N,然而,如果施加一个约束,,a为常数,那么x的自由度就减少了,新的自由度就是N-1。
如果利用公式来估计总体方差,我们将得到的是一个有偏的估计【什么叫有偏?
?
如果我们无限次重复抽取样本容量为N的样本,针对每一个样本都可以计算一个方差的估计值。
然后,对这些方差的估计值计算平均值,如果该平均值不等于总体真实方差,那么我们所采取的估计法则是有偏的】。
而利用公式,我们将得到一个无偏的估计。
事实上,在计算样本方差时,自由度是N-1而不是N。
为什么?
这是因为存在一个约束:
【换个思路看,是因为在计算样本方差时我们先必须利用公式计算样本均值,这实际上是一个约束条件】。
再考虑残差的自由度。
对残差有多少约束?
根据正规方程
(1)
(2),有:
,因此存在两个约束。
故残差的自由度是N-2。
思考:
利用OLS,当拟合函数(样本回归函数)是:
时,残差的自由度为多少?
R2忽视了自由度问题。
我们已知道在这里与都是有偏估计,现在,我们对自由度作调整,重新定义一个指标,即所谓的调整的R2():
应该注意到,如果是针对多元线性回归模型,待估计的斜率参数有k个,也含有1个截距(即总的待估计系数参数的个数为k+1个),那么上述公式就是:
小于R2,且存在是负数的情况。
如果用增加解释变量的方法来提高R2,这一定会提高吗?
我们已经知道,增加解释变量一般是增加R2(至少不会减少),但将减少自由度。
直观来看,自由度过少有什么问题呢?
举一个例子:
对简单线性回归模型,假定我们只有两次观测,显然,我们可以保证R2=1,即完全拟合。
但我们得到的这个拟合直线很可能与y与x的真实关系相去甚远,毕竟我们只有两次观测【与抛硬币的例子类比吧,为了说明硬币两面质量均匀,抛一两次硬币能够充分说明问题吗?
】。
事实上,此时自由度为0!
六、简单线性回归模型拓展到多元线性回归模型
考虑,各系数的估计按照OLS是求解数学问题:
因此,存在三个正规方程:
第一个方程意味着残差之和为零,也意味着及其
第二个方程意味着残差与x样本不相关;
第三个方程意味着残差与z样本不相关。
如果样本回归函数是呢?
你应该能够推广相关性质!
七、OLS的矩阵代数
(一)矩阵表示
总体多元回归模型是:
如果用矩阵来描述,首先定义下列向量与矩阵:
模型的矩阵表示:
(二)如何得到OLS估计量?
求解一个最小化问题:
,有:
而根据矩阵微分的知识(见文本框),有:
故,,则
矩阵微分
与都是标量。
重要的规则:
一个标量关于一个列向量的导数仍是列向量,并且维数保持不变。
注意,为了保证的存在,OLS具有一个假设:
X列满秩,即不存在完全共线性。
关于矩阵的秩
是矩阵,为了保证的存在,那么,基于矩阵知识点:
,因此这也要求。
是矩阵,因此X列满秩。
考虑简单线性回归模型的矩阵表示:
X列满秩意味着,其中为常数,这也意味着:
【你能证明吗?
】,注意到,而正是我们所要求的!
对于模型,如果我们只有2个观测值,我们能够得到吗?
第二讲OLS估计量
一、估计量与估计值
对总体参数的一种估计法则就是估计量。
例如,为了估计总体均值为u,我们可以抽取一个容量为N的样本,令Yi为第i次观测值,则u的一个很自然的估计量就是。
A、B两同学都利用了这种估计方法,但手中所掌握的样本分别是与。
A、B两同学分别计算出估计值与。
因此,在上例中,估计量
是随机的,而是该随机变量可能的取值。
估计量所服从的分布称为抽样分布。
如果真实模型是:
,其中是待估计的参数,而相应的OLS估计量就是:
我们现在的任务就是,基于一些重要的假定,来考察上述OLS估计量所具有的一些性质。
二、高斯-马尔科夫假定与高斯-马尔科夫定理
●假定一:
真实模型是:
有三种情况属于对该假定的违背:
(1)遗漏了相关的解释变量或者增加了无关的解释变量;
(2)y与x间的关系是非线性的;
(3)并不是常数。
●假定二:
在重复抽样中,被预先固定下来,即是非随机的(进一步的阐释见附录),显然,如果解释变量含有随机的测量误差,那么该假定被违背。
还存其他的违背该假定的情况。
※假定三:
误差项期望值为0,即。
※假定四:
,即所谓的同方差假定。
※假定五:
,即所谓的序列不相关假定。
●假定六:
,在多元回归中,该假定演变为的逆存在,即各解释变量不完全共线。
※都是关于误差项的假定,如果模型:
确实是恰当的,那么误差项应该不含有还可以利用的信息价值。
如果误差项是序列相关的,显然这表明误差项还含有可以利用的信息价值。
另外,由于假定是非随机的,所以误差项与任意xi都是不相关的。
OLS估计量作为一种线性估计量,在高斯-马尔科夫假定下,我们将证明它具有良好的统计性质。
所谓OLS估计量是线性估计量,是指它能够被表示为的线性函数。
例如,。
注意,在假定二下,ki是非随机的。
把表示成的线性函数
(一)无偏性
而;
在重要假定三:
下,
证明
(二)最小方差性——在的所有线性无偏估计量中,OLS估计量具有最小的方差。
1、关于方差
在重要假定五:
及其重要假定四:
下,,
而
因此,
证明在高斯-马尔科夫假定下:
在重要假定四与五下证明:
2、把任意一种线性估计量表示为,当时,该估计量即为的OLS估计量。
在所有无偏的的线性估计量中,OLS估计量具有最小的方差。
首先强调一个前提,即“在所有无偏的的线性估计量中”。
现在我们的任务是,在给定前提下(约束条件),证明OLS估计量所对应的权数使方差(目标函数)取最小值。
首先分析前提条件。
线性估计量的表达是:
为了保证的无偏性,那么应该保证:
因此,
其次分析方差表示。
在同方差及其无自相关假定下,有
最后,形成数学问题:
或者说,
对上述极值问题,其拉格朗日函数是:
应该注意到,把(3group)中各式相加并利用(4)有:
,即;
把(3group)中第i式两边同乘以并各式相加,然后利用(5),有:
,即
因此,;
而在前面我们已知道这个权数正是的OLS估计量所对应的权数!
证明OLS估计量在所有的线性无偏估计量中方差是最小的。
总结:
在高斯-马尔科夫假定下,OLS估计量是最优线性无偏估计量(bestlinearunbiasedestimator,BLUE),这被称为高斯-马尔科夫定理。
应该注意,线性性质不过是OLS估计量在假定一下所具有的代数性质,无偏性与有效性才是高斯-马尔科夫定理所强调。
在附录2中,本讲义提供了很多教科书对该定理的另外一种证明形式。
由,当N趋于无穷大时,样本方差收敛于总体方差,故当N趋于无穷大时,趋于0。
由于,因此,当N趋于无穷大时,在概率上收敛于,即是的一致估计量。
你能够表明是的一致估计量吗?
应该注意到,一致性是估计量应该满足的最低要求。
想一想,如果把总体都告诉了你,但你的估计或者猜测却与真实参数不一致,你是不是应该检讨一下你的估计方法?
三、补充知识点
补充知识点1:
在高斯-马尔科夫假定下对的一个无偏估计是:
由于xi是非随机的,按照假定,我们在练习中也证明了,因此,有:
,按照方差公式及其前述已有结论,
,因此,有:
故,因此,
就是残差的样本方差【在含截距的简单线性回归模型中,残差的自由度是多少?
误差是观测不到的,但我们能利用样本得到残差。
直观来看,我们可以利用残差的样本方差来作为对误差方差的估计。
上述证明结果表明,这个估计还是无偏的。
应该注意,尽管在高斯-马尔科夫假定下是对的无偏估计,然而并不是对的无偏估计,不过可以证明是对的一致估计。
被称为“回归的标准误”(standarderrorofregression,SER)。
为什么在高斯-马尔科夫假定下是对的无偏估计,但并不能由此推出是对的无偏估计?
从数学上可以表明,当是非线性函数时,由不能推出。
事实上由利用Jensen不等式有:
Jensen不等式:
,当g是凸函数(凸向原点)时;
,当g是凹函数(凹向原点)时。
另外可以证明,是对的一致估计,这意味着,的方差随样本容量的增加而趋于零。
由于,因此,当样本容量无穷大时,在概率上收敛于,即的概率极限为。
概率极限运算具有这样一个性质,即:
由上述性质,则,故有:
即,如果是对的一致估计,则是对的一致估计,反之亦然。
补充知识点2:
基于OLS的预测
假定真实模型是:
,模型满足高斯马尔科夫假定。
利用OLS法得到:
现在我们获得一次新的观测,然而此次观测只得到x的取值是xf。
(一)如何预测yf?
以作为对yf的预测。
此时预测误差是:
显然,E(e1)=0。
笔记一:
的随机性来源于。
N是样本容量,正是基于该样本获得估计结果。
与是不相关的,因此与无关。
笔记二:
根据上述表达式可知,当时,预测误差方差最小。
直觉是什么呢?
以工资对教育水平回归为例。
首先你基于一个样本得到估计结果,该样本主要由具有初中和高中学教育水平的人构成。
想一想,如果利用已有的回归结果去预测一位博士的收入,预测精度会高吗?
如果利用已有的回归结果去预测一位小学可能都未读完的人的收入,预测精度会高吗?
(二)如何预测E(yf)?
以作为对E(yf)的预测。
显然,E(e2)=0。
比较可知,更适合作为对E(yf)的预测。
上述预测实际上是属于点预测。
还有一种预测被称为区间预测,参见第三讲附录3。
附录1:
理解的非随机假定
在初级计量经济学中,被假定是非随机的,这样数学处理起来要简单得多。
实际上,它并不是一个标准假定。
在中高级计量中,可以是随机的,但假定三被修订为:
下面我们考虑一个是非随机的例子。
我们想考察受教育年限(x)对收入(y)的影响。
假定预先知道总体中有1%的人口接受了22年的学校教育;
有3%的人口接受了19年的学校教育;
有10%的人口接受了16年的学校教育…。
现在,我们进行一个样本容量为1000的抽样调查。
为了使样本尽量反映总体的情况,我们要求样本中有10人接受了22年的教育;
有30人接受了19年的教育;
有100人接受了16年的教育。
这种抽样技术被称为分层随机抽样(Stratifiedrandomsample)。
在抽样中,设定前10次观测就是那接受了22年的教育的10人,接下来是接受了19年教育的30人…,在多次重复抽样时,我们保持这样的设定。
于是,在重复抽样中,被预先固定下来,即是非随机的。
附录2:
高斯马尔科夫定理另外一种常见的证明方式
下,,即是的无偏估计量。
下,
2、证明在的所有线性无偏估计量中,OLS估计量具有最小的方差。
我们已知道OLS估计量是线性无偏估计量,即,。
假设是用其他估计方法得到的关于的线性无偏估计量,设。
因此,,当然,
令,则必有:
现在来求的方差。
在重要假定五与重要假定四下,
因此,,当时等号成立。
注意,恰好是OLS估计量的方差。
第三讲假设检验
一、经典线性模型假定
对于,利用OLS有:
在高斯-马尔科夫假定下,OLS估计量的抽样分布完全取决于误差项的分布。
在高斯-马尔科夫假定中,我们要求误差项是序列无关与同方差的,现在,我们施加更强的假定,即误差项服从正态分布,即。
应该注意到,当误差项服从正态分布时,序列无关与独立性是等价的。
因此,我们可以把上述分布假设写为:
,即误差项服从独立同正态分布。
为什么要施加更强的假定呢?
这是为了进行小样本下的假设检验。
与高斯-马尔科夫假定一起,被称为经典线性模型假定。
在经典线性模型假定下,可以证明,OLS估计量是方差最小的无偏估计量(注意!
此时不需要把比较范围限制在线性估计量之中)。
假设误差项服从正态分布的合理性在于,误差项是由很多因素构成的,当这些因素是独立同分布时,依照中心极限定理,那么这些因素之和应该近似服从正态分布。
当然,这并不意味着用正态分布来近似误差项的分布总是恰当的,例如,各因素或许并不同分布。
另外,如果y是价格这样的变量,那么假设误差项服从正态分布是不合理的,因为价格不可能是负数,然而,我们可以进行变量变换,例如对价格取自然对数或者考察价格的变化率,那么经过变量变换之后,或许再假设误差项服从正态分布就变得合理了。
根据可以看出,在大样本下,只要误差项是独立同分布的(并不需要要假定误差项是服从正态分布的),那么根据中心极限定理,是近似服从正态分布的。
当然,为了保证误差项的独立性,抽样的随机性是十分关键的。
笔记三:
我们可以对这个假设进行检验。
当然,由于误差是观测不到的,我们不得不利用残差来代替误差。
一种常用的正态性检验是Jarqe-Bera(JB)检验,具体可参见相关教科书。
二、利用标准正态分布作假设检验
假定是真实模型,当然我们并不知道各参数的真实值是多少。
但某一经济经济理论预言。
如果你手中掌握一样本,一个问题是,你所掌握的样本支持这个预言吗?
在经典线性模型假定下,或者定义,则z就是所谓的z统计量。
估计量是用来估计真实参数的,而统计量是用来做统计推断(或者假设检验)的;
统计量是随机的,其分布也被称为抽样分布,针对特定样本,我们得到统计量值,它是非随机的。
,其中,。
确定的分布。
现在,假设经济理论的预言是正确的,那么针对特定的样本你将得到标准正态分布图横坐标上的一个点:
在这里,该式是非随机的,而特别应该注意的是,分子中的是估计值,而分母中的是估计量。
估计值的标准差是零!
现在来考察标准正态分布。
在该分布上,存在对称的两点:
与,其中:
如果把概率为5%的事件称为小概率事件,那么,当的取值大于或者小于时,我们认为小概率事件发生了!
小概率事件一般是不容易发生的,现在居然发生了,因此,我们应该怀疑上述经济理论所作出的预言。
*****另外一种直觉性的解释:
当这个假设为真时,粗略看来,即使估计值与完全相等不太可能,但估计值应该接近于。
然而我们也要注意到,对的估计还存在精确性问题,这通过统计量的标准差体现出来。
也就是说,在原假设为真时,即使估计值与有一定的差异,然而如果较大,那么出现与的较大差异也许是正常的。
不过总的来看,当原假设为真时,z统计量值是应该接近于0的,这要么是因为中的分子确实接近于0,要么是因为尽管与有一定的差异,但较大。
当z统计量值与0具有较大差异时,那么这个假设的真实性是值得怀疑的!
*****
正式步骤:
(1)建立原假设与备择假设:
注:
原假设与备择假设互斥而假设体系应该是完备的,即原假设与备择假设两者之一必为真,但两者不能同时为真。
(2)确定小概率标准a。
经常我们把1%、5%或者10%作为小概率标准。
对a更加正式的称呼是“显著水平”。
(3)考察统计量值是否落在区间:
之内。
如果落在上述区间之内,那么在a显著水平上,我们拒绝原假设,接受备择假设;
反之,我们不拒绝原假设,拒绝备择假设。
思考一:
为什么当统计量值落在之外时我们说“不拒绝原假设”而不是说“接受原假设”?
解释:
你可以作出很多的原假设,例如,而你所计算出来的一些统计量值恰好都落在之外,难道你既接受也接受?
显然更恰当的表达方式是,即不拒绝也不拒绝。
*****“接受原假设”没有留有余地,而“不拒绝原假设”表明我们的结论是留有余地的,即,在另外的原假设下也可能不拒绝。
“接受备择假设”留有余地吗?
应该注意到,备择假设是,因此,即使说“接受备择假设”,这也是留有余地的。
思考二:
设定1%、5%或者10%为显著水平显得有点随意,为何不设2%、6%、7%等为显著水平呢?
是否可以依据一个更一般的标准来进行假设检验?
可以依据一个更一般的标准来进行假设检验!
既然我们已经计算出统计量值,如果z为正,那么根据正态分布表,我们就能够确定的值,我们通常把这个概率值称为伴随概率,简写为P或者Prob.【注:
如果z值为负,那么我们能够确定的值】,这个概率值很有用处!
例如,假定P值是0.062,那么,显然,以任何小于6.2%的概率为小概率标准,我们并不拒绝原假设;
以任何大于6.2%的概率为小概率标准,我们拒绝原假设。
在进行双尾检验时,当P小于给定的显著水平时,那么在给定的显著水平下应该拒绝原假设;
反之,则不拒绝原假设。
上述检验都属于双尾检验,即是拒绝域。
如果假设体系是:
那么在显著水平a下,拒绝域应该是,我们进行的是单侧(尾)检验。
问题是我们为何要设置这样的假设体系呢?
这依赖于先验的理论与判断。
例如,假定是某正常商品的消费收入弹性,那么不可能为负。
我们可以通过建立如下的假设体系:
并基于样本来判断是否为真。
关于单侧检验的拒绝域见附录1。
思考题:
在假设体系
下,计量软件包计算出统计量值z,而且P值为0.120【注:
计量软件包默认的P值是双尾的概率,当z为正时,它计算的是】。
问:
下,以10%为显
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计量经济学 全套讲义. 计量 经济学 全套 讲义