考研统计学知识要点汇总.docx
- 文档编号:15103751
- 上传时间:2023-06-30
- 格式:DOCX
- 页数:21
- 大小:26.75KB
考研统计学知识要点汇总.docx
《考研统计学知识要点汇总.docx》由会员分享,可在线阅读,更多相关《考研统计学知识要点汇总.docx(21页珍藏版)》请在冰点文库上搜索。
考研统计学知识要点汇总
2016考研统计学知识要点:
主成分和因子分析
1.
(1)概念:
在研究实际问题时,往往需要收集多个变量。
但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差。
为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息。
主成分分析和因子分子正是解决这类问题的有效方法。
它们能够提取信息,使变量简化降维,从而使问题更加简单直观
(2)主成分分析:
研究如何通过少数几个主成分(principalcomponent)来解释多个变量间的内部结构。
即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关
主成分分析的目的:
数据的压缩;数据的解释。
常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释。
(主成分所代表的原始变量的信息用其方差来表示,一般要求所选主成分的方差总和占全部方差的80%以上就可以了。
如果原来的变量之间的相关程度高,降维的效果就会好一些,所选的主成分就会少一些。
特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息。
特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率。
一般情况下,当特征根小于1时,就不再选作主成分了,因为该主成分的解释力度还不如直接用原始变量解的释力度大。
)
(3)因子分析:
与主成分分析类似,它们都是要找出少数几个新的变量来代替原始变量。
不同之处:
主成分分析中的主成分个数与原始变量个数是一样的,即有几个变量就有几个主成分,只不过最后我们确定了少数几个主成分而已。
而因子分析则需要事先确定要找几个成分,也称为因子(factor),然后将原始变量综合为少数的几个因子,以再现原始变量与因子之间的关系,一般来说,因子的个数会远远少于原始变量的个数。
因子分析可以看作是主成分分析的推广和扩展,但它对问题的研究更深入、更细致一些。
实际上,主成分分析可以看作是因子分析的一个特例
简言之,因子分析是通过对变量之间关系的研究,找出能综合原始变量的少数几个因子,使得少数因子能够反映原始变量的绝大部分信息,然后根据相关性的大小将原始变量分组,使得组内的变量之间相关性较高,而不同组的变量之间相关性较低。
因此,因子分析属于多元统计中处理降维的一种统计方法,其目的就是要减少变量的个数,用少数因子代表多个原始变量
(4)因子数量的确定
用公因子方差贡献率提取:
与主成分分析类似,一般累计方差贡献率达到80%以上的前几个因子可以作为最后的公因子
用特征根提取:
一般要求因子对应的特征根要大于1,因为特征根小于1说明该共因子的解释力度太弱,还不如使用原始变量的解释力度大
实际应用中,因子的提取要结合具体问题而定,在某种程度上,取决于研究者自身的知识和经验
(5)主成分分析和因子分析都是多元分析中处理降维的两种统计方法。
只有当原始数据中的变量之间具有较强的相关关系时,降维的效果才会明显,否则不适合进行主成分分析和因子分析
主成分和因子的选择标准应结合具体问题而定。
在某种程度上取决于研究者的知识和经验,而不是方法本身
即使得到了满意的主成分或因子,在运用它们对实际问题进行评价、排序等分析时,仍然要保持谨慎,因为主成分和因子毕竟是高度抽象的量,无论如何,它们的含义都不如原始变量清晰
因子分析可以看作是主成分分析的推广和扩展,而主成分分析则可以看作是因子分析的一个特例。
目前因子分析在实际中被广泛应用,而主成分分析通常只作为大型统计分析的中间步骤,几乎不再单独使用
2016考研统计学知识要点:
多元回归
1.多重共线性
回归模型中两个或两个以上的自变量彼此相关
多重共线性带来的问题有
可能会使回归的结果造成混乱,甚至会把分析引入歧途
可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们预期的正负号相反
2.多重共线性的识别
检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验
若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性
如果出现下列情况,暗示存在多重共线性
模型中各对自变量之间显著相关。
当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著
回归系数的正负号与预期的相反。
3.变量选则过程
在建立回归模型时,对自变量进行筛选
选择自变量的原则是对统计量进行显著性检验
将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。
如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型
确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量
变量选择的方法主要有:
向前选择、向后剔除、逐步回归、最优子集等
4.向前选择
从模型中没有自变量开始
对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量(P值最小的),并将其首先引入模型
分别拟合引入模型外的k-1个自变量的线性回归模型
如此反复进行,直至模型外的自变量均无统计显著性为止
5.向后剔除
先对因变量拟合包括所有k个自变量的回归模型。
然后考察p(p
考察p-1个再去掉一个自变量的模型(这些模型中每一个都有k-2个的自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除
如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止
6.逐步回归
将向前选择和向后剔除两种方法结合起来筛选自变量
在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。
如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除
按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少
在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中
7.虚拟自变量
用数字代码表示的定性自变量
虚拟自变量可有不同的水平
只有两个水平的虚拟自变量。
比如,性别(男,女)
有两个以上水平的虚拟自变量,贷款企业的类型(家电,医药,其他)
虚拟变量的取值为0,1
回归模型中使用虚拟自变量时,称为虚拟自变量的回归
当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量,比如,性别
一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量
例:
引进虚拟变量时,回归方程可写:
E(y)=b0+b1x1+b2x2
女(x2=0):
E(y|女性)=b0+b1x1
男(x2=1):
E(y|男性)=(b0+b2)+b1x1
b0的含义表示:
女性职工的期望月工资收入
(b0+b2)的含义表示:
男性职工的期望月工资收入
b1含义表示:
工作年限每增加1年,男性或女性工资的平均增加值
b2含义表示:
男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(b0+b2)-b0=b2
2016考研统计学知识要点:
简单回归
1.相关分析:
对两个变量之间线性关系的描述与度量,它要解决的问题包括
§变量之间是否存在关系?
§如果存在关系,它们之间是什么样的关系?
§变量之间的强度如何?
§样本所反映的变量之间的关系能否代表总体变量之间的关系?
2.回归分析:
从一组样本数据出发,确定变量之间的数学关系式;对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度
3.回归分析与相关分析的区别
相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化
相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量
相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制
4.一元线性回归模型
描述因变量y如何依赖于自变量x和误差项e的方程称为回归模型
一元线性回归模型可表示为
y=b0+b1x+e
y是x的线性函数(部分)加上误差项
线性部分反映了由于x的变化而引起的y的变化
误差项e是随机变量
l反映了除x和y之间的线性关系之外的随机因素对y的影响
l是不能由x和y之间的线性关系所解释的变异性
b0和b1称为模型的参数
5.利用回归方程预测时应注意
1.在利用回归方程进行估计或预测时,不要用样本数据之外的x值去预测相对应的y值
2.因为在一元线性回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。
但实际应用中,它们之间的关系可能是某种曲线
3.此时我们总是要假定这条曲线只有一小段位于x测量值的范围之内。
如果x的取值范围是在xL和xU之间,那么可以用所求出的利用回归方程对处于xL和xU之间的值来估计E(y)和预测y。
如果用xL和xU之间以外的值得出的估计值和预测值就会很差
6.离差平方和
总平方和(SST)
反映因变量的n个观察值与其均值的总离差
回归平方和(SSR)
反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和
残差平方和(SSE)
反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和
7.估计标准误差
实际观察值与回归估计值离差平方和的均方根(自由度n-2)
反映实际观察值在回归直线周围的分散状况
对误差项e的标准差s的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量
反映用估计的回归方程预测y时预测误差的大小
2016考研统计学知识要点:
方差分析
1.通过分析数据的误差判断各总体均值是否相等;研究一个或多个分类型自变量对一个数值型因变量的影响
单因素方差分析:
涉及一个分类的自变量
双因素方差分析:
涉及两个分类的自变量
2.
(1)仅从散点图上观察还不能提供充分的证据证明不同行业被投诉的次数之间有显著差异
这种差异也可能是由于抽样的随机性所造成的
需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析
所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差
这个名字也表示:
它是通过对数据误差来源的分析判断不同总体的均值是否相等。
因此,进行方差分析时,需要考察数据误差的来源
(2)随机误差
因素的同一水平(总体)下,样本各观察值之间的差异
比如,同一行业下不同企业被投诉次数是不同的
这种差异可以看成是随机因素的影响,称为随机误差
系统误差
因素的不同水平(不同总体)下,各观察值之间的差异
比如,不同行业之间的被投诉次数之间的差异
这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差
(3)数据的误差用平方和(sumofsquares)表示
组内平方和(withingroups)
因素的同一水平(同一个总体)下样本数据的平方和
比如,零售业被投诉次数的误差平方和
组内平方和只包含随机误差
组间平方和(betweengroups)
因素的不同水平(不同总体)下各样本之间的平方和
比如,四个行业被投诉次数之间的误差平方和
组间平方和既包括随机误差,也包括系统误差
3.方差分析的基本假定
正态性:
每个总体都应服从正态分布
对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本
比如,每个行业被投诉的次数必需服从正态分布
方差齐性:
各个总体的方差必须相同
各组观察数据是从具有相同方差的总体中抽取的
比如,四个行业被投诉次数的方差都相等
独立性:
观察值是独立的(该假定不满足对结果影响较大)
4.问题的一般提法:
(1)设因素有k个水平,每个水平的均值分别用m1,m2,¼,mk表示
(2)要检验k个水平(总体)的均值是否相等,需要提出如下假设:
H0:
m1=m2=…=mk
H1:
m1,m2,¼,mk不全相等
5.SST:
全部观察值xij与总平均值的离差平方和,反映全部观察值的离散状况
SSA:
各组平均值xi与总平均值xij的离差平方和;反映各总体的样本均值之间的差异程度,又称组间平方和;该平方和既包括随机误差,也包括系统误差
SSE:
每个水平或组的各样本数据与其组平均值的离差平方和;反映每个样本各观察值的离散状况,又称组内平方和;该平方和反映的是随机误差的大小
总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系:
SST=SSA+SSE
如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差
判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小
6.均方
各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差
计算方法是用误差平方和除以相应的自由度
三个平方和对应的自由度分别是
SST的自由度为n-1,其中n为全部观察值的个数
SSA的自由度为k-1,其中k为因素水平(总体)的个数
SSE的自由度为n-k
7.构造检验统计量
将MSA和MSE进行对比,即得到所需要的检验统计量F
当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为n-k的F分布
将统计量的值F与给定的显著性水平a的临界值Fa进行比较,作出对原假设H0的决策
²根据给定的显著性水平a,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值Fa
²若F>Fa,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响
²若F
8.关系强度
变量间关系的强度用自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小来反映
自变量平方和占总平方和的比例记为R2,即
3、其平方根R就可以用来测量两个变量之间的关系强度
2016考研统计学知识要点:
假设检验
一、概念
先对总体的参数(或分布形式)提出某种假设,然后利用样本信息判断假设是否成立的过程
有参数检验和非参数检验
逻辑上运用反证法,统计上依据小概率原理
什么小概率?
1.在一次试验中,一个几乎不可能发生的事件发生的概率
2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设
3.小概率由研究者事先确定
怎样通过假设检验去掉偶然性
利用P值进行检验就可以去掉偶然性。
因为P值告诉我们在某个总体的许多样本中,某一类数据出现的经常程度,P值是当原假设正确的情况下,得到所观测的数据的概率。
如果原假设是正确的,P值若很小,则告诉我饿们得到这样的观测数据是多么的不可能,相当不可能得到的数据,就是原假设不对的合理证据,偶然性也就消除了。
二、原假设
1.研究者想收集证据予以反对的假设。
是关于总体参数的表述,它是接受检验的假设。
2.总是有符号=,£或³
3.表示为H0
nH0:
m=某一数值
n指定为符号=,£或³
三、备择假设
研究者想收集证据予以支持的假设。
党员假设被否定时另一种可成立的假设。
总是有符号¹,<或>
表示为H1
nH1:
m<某一数值,或m>某一数值
四、结论与总结
原假设和备择假设是一个完备事件组,而且相互对立
n在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立
先确定备择假设,再确定原假设
等号“=”总是放在原假设上
因研究目的不同,对同一问题可能提出不同的假设(也可能得出不同的结论)
五、两类错误
1.第Ⅰ类错误(弃真错误)
原假设为真时拒绝原假设
第Ⅰ类错误的概率记为a。
被称为显著性水平。
常用的a值有0.01,0.05,0.10
2.第Ⅱ类错误(取伪错误)
原假设为假时未拒绝原假设
第Ⅱ类错误的概率记为b(Beta)
影响b错误的因素:
1.总体参数的真值。
随着假设的总体参数的减少而增大
2.显著性水平a。
当a减少时增大3.总体标准差s。
当s增大时增大4.样本容量n。
当n减少时增大
控制:
进行假设检验时总希望犯两类错误的可能性都很小,然而,在其他条件不变的情况下,a与b是此消彼长的关系,二者不可能同时减小。
若要同时减小a与b,只能是增大样本量。
一般总是控制a,是犯错误的概率不大于a,即a是允许犯弃真错误的最大概率值(而P值相当于根据样本计算的犯弃真错误的概率值,故P值又称为观测的显著性水平)。
但确定a时必须注意,如果犯弃真错误的代价较大,a可取小些,相反,如果返取伪错误的代价较大,则a宜取大些(以使b较小)
六、假设检验的结论表述
假设检验的目的就在于试图找到拒绝原假设,而不在于证明什么是正确的
拒绝原假设时结论是清楚的
例如,H0:
m=10,拒绝H0时,我们可以说¹m10
当不拒绝原假设时
并未给出明确的结论
不能说原假设是正确的,也不能说它不是正确的
例如,当不拒绝H0:
m=10,我们并未说它就是10,但也未说它不是10。
我们只能说样本提供的证据还不足以推翻原假设
七、统计上的显著与实际意义
1.当拒绝原假设时,我们称样本结果是统计上显著的(statisticallySignificant)
2.当不拒绝原假设时,我们称样本结果是统计上不显著的
3.在“显著”和“不显著”之间没有清除的界限,只是在P值越来越小时,我们就有越来越强的证据,检验的结果也就越来越显著
4.“显著的”(Significant)一词的意义在这里并不是“重要的”,而是指“非偶然的”
5.一项检验在统计上是“显著的”,意思是指:
这样的(样本)结果不是偶然得到的,或者说,不是靠机遇能够得到的
6.如果得到这样的样本概率(P)很小,则拒绝原假设
在这么小的概率下竟然得到了这样的一个样本,表明这样的样本经常出现,所以,样本结果是显著的
7.在进行决策时,我们只能说P值越小,拒绝原假设的证据就越强,检验的结果也就越显著
8.但P值很小而拒绝原假设时,并不一定意味着检验的结果就有实际意义
因为假设检验中所说的“显著”仅仅是“统计意义上的显著”
一个在统计上显著的结论在实际中却不见得就很重要,也不意味着就有实际意义
9.因为值与样本的大小密切相关,样本量越大,检验统计量的P值也就越大,P值就越小,就越有可能拒绝原假设
10.如果你主观上要想拒绝原假设那就一定能拒绝它
这类似于我们通常所说的“欲加之罪,何患无词”
只要你无限制扩大样本量,几乎总能拒绝原假设
11.当样本量很大时,解释假设检验的结果需要小心
在大样本情况下,总能把与假设值的任何细微差别都能查出来,即使这种差别几乎没有任何实际意义
12.在实际检验中,不要刻意追求“统计上的”显著性,也不要把统计上的显著性与实际意义上的显著性混同起来
n一个在统计上显著的结论在实际中却不见得很重要,也不意为着就有实际意义
2016考研统计学知识要点:
参数估计
一、点估计
用样本的估计量直接作为总体参数的估计值
2.缺点:
没有给出估计值接近总体参数程度的信息,它与真挚的误差、估计可靠性怎么样无法知道。
区间估计可以弥补这种不足。
点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等
二、区间估计
在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
三、置信水平
将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平
表示为(1-a%)
常用的置信水平值有99%,95%,90%;相应的a为0.01,0.05,0.10
四、置信区间
ü由样本统计量所构造的总体参数的估计区间称为置信区间;
ü统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间
ü用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
置信区间的表述:
总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数
实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。
我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个
一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题
置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的
使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。
直观地说,较宽的区间会有更大的可能性包含参数
但实际应用中,过宽的区间往往没有实际
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 考研 统计学 知识 要点 汇总
![提示](https://static.bingdoc.com/images/bang_tan.gif)