多元统计分析考试 2.docx
- 文档编号:10027626
- 上传时间:2023-05-23
- 格式:DOCX
- 页数:17
- 大小:249.95KB
多元统计分析考试 2.docx
《多元统计分析考试 2.docx》由会员分享,可在线阅读,更多相关《多元统计分析考试 2.docx(17页珍藏版)》请在冰点文库上搜索。
多元统计分析考试2
判断:
1对2对3对4对5错
6对应分析是否可降维(对)
7数据的计量尺度:
定类尺度,定序尺度,定距尺度,定比尺度
1.应用统计学中的数据可以不是数值。
(×)
2.相关系数等于零,表明变量之间不存在任何关系。
(√)
3.双因素方差分析主要用于检验两个总体方差是否相等。
(√)
4.环比增长速度的连乘积等于相应时期的定基增长速度。
(×)
5.线性回归分析中,可决系数R2是对回归模型拟合程度的评价。
(√)
6.加权平均数指数是加权综合指数的一种变形,它们具有相同的权数。
(√)
7.在假设检验中,给定的显著性水平α是在原假设为真的条件下,拒绝原假设的概率。
(×)
8.在抽样调查中,允许误差也称极限误差,是抽样误差的最大值。
(×)
9.若样本容量确定,则假设检验中的两类错误不能同时减少。
(√)
10.如果一组数据的众数大于中位数,且中位数又大于算术平均数,则这组数据的偏态系数小于0。
(√)
简答:
一、数据的清洗技术:
答案一:
(1)解决缺失值:
均值替换法、个案剔除法、多重替换法、热卡填充法、回归替换法。
(2)错误值:
偏差分析,识别不遵守分布或回归方程的值。
(3)重复记录:
合半、清除
(4)不一致:
可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,使数据保持一致。
答案二:
主要为下一步数据分析做进一步的准备,最终将数据清洗为满足分析需求的具体数据集。
期间主要内容包括:
(1)数据集的预先分析:
对数据进行必要的分析,如数据分组、排序、分布图、平均数、标准差描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据
(2)相关变量缺失值的查补检查
(3)分析前相关的校正和转换工作.
(4)观测值的抽样筛选.
(5)其他数据清洗工作
二、如何处理数据缺失值:
答案一:
1剔除数据,即删除数据。
2替换方法,一般有三种:
均值替换法,即用其他个案中该变量观测值的平均数对缺失的数据进行替换,但这种方法会产生有偏估计,所以并不被推崇。
个别替换法,通常也被叫做回归替换法(regressionimputation),在该个案的其他变量值都是通过回归估计得到的情况下,这种方法用缺失数据的条件期望值对它进行替换。
这虽然是一个无偏估计,但是却倾向于低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。
多重替代法,它从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况给每个缺省数据赋予一个模拟值。
结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。
答案二:
1.删除含有缺失值的个案
主要有简单删除法和权重法。
简单删除法是对缺失值进行处理的最原始方法。
它将存在缺失值的个案删除。
如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。
当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。
把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic或probit回归求得。
如果解释变量中存在对权重估计起决定行因素的变量,那么这种方法可以有效减小偏差。
如果解释变量和权重并不相关,它并不能减小偏差。
对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。
2.可能值插补缺失值
它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。
在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。
常用的有如下几种方法。
(1)均值插补。
数据的属性分为定距型和非定距型。
如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。
(2)利用同类均值插补。
同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。
假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。
如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。
(3)极大似然估计。
在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(LittleandRubin)。
这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(ExpectationMaximization,EM)。
(4)多重插补。
多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。
具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。
根据某种选择依据,选取最合适的插补值。
三、Logistic回归模型
Logistic模型:
在逻辑回归中,可以直接预测观测量相对于某一事件的发生概率。
包含一个自变量的回归模型和多个自变量的回归模型公式:
其中:
=
+
+…
(P为自变量个数)。
某一事件不发生的概率为Prob(noevent)=1-Prob(event)。
因此最主要的是求
…
(常数和系数)。
数据要求:
因变量应具有二分特点。
自变量可以是分类变量和定距变量。
如果自变量是分类变量应为二分变量或被重新编码为指示变量。
指示变量有两种编码方式。
回归系数:
几率和概率的区别。
几率=发生的概率/不发生的概率。
根据回归系数表,可以写出回归模型公式中的
。
然后根据回归模型公式Prob(event)进行预测。
Logistic回归分析的一般步骤:
1、选择自变量和因量变2、将一部分样品用于估计LOGISTIC函数,另一部分样品用于检验模型的判别精度3、模型中假定自变量之间不存在高度相关,因变量发生概率的模型服从LOG模型4、估计模型参数、评定拟合程度5、解决所得到的模型结果6、通过保留样品来验证模型的判别精度。
一、变量的编码
1.变量的编码要易于识别2.注意编码的等级关系3.改变分类变量的编码,其分析的意义并不改变。
4.牢记编码
(1)使用变量数值标识(valuelabels)
(2)记录编码内容
二、哑变量的设置和引入
1.哑变量,又称指示变量或设计矩阵。
2.有利于检验等级变量各个等级间的变化是否相同,但主要适合于无序分类变量。
3.一个k分类的分类变量,可以用k-1个哑变量来表示。
三、各个自变量的单因素分析
1.了解自变量与因变量的分布
2.检验是否符合建立模型的应用条件(偏离应用条件时,进行数据变换)
3.各个自变量两组间的比较(计数资料、计量资料)
4.双变量分析
四、变量的筛选
1.变量筛选的原则
专业上考虑
测量上考虑(共线性问题:
计算相关矩阵,相关系数0.8-0.9,则选其一。
缺失数据少、测量误差低的优先选择)
经验上考虑(双变量分析中有显著性的自变量(P≤0.15)选择那些改变主效应的自变量)
2.变量筛选的可用方法
逐步logistic回归:
自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。
前进法:
逐个引入模型外的变量
后退法:
放入所有变量,再逐个筛选
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。
当变量间有完全相关性时,后退法无法使用,可用前进法。
五、交互作用的引入
1.交互作用的定义
当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用
2.交互作用项的引入
3.交互作用的检验
4.交互作用的解释
六、建立多个模型七、选择较优的模型八、模型应用条件的评价九、输出结果的解释
1.模型中各个系数的显著性检验
Wald检验:
类似于直线回归系数的t检验
Wald
检验:
同上
似然比检验:
自变量不在模型中与在模型中的似然值比较。
Score检验
2.回归系数的解释
系数的正负值:
正(负)系数表示随自变量的增加因变量logit值的增加(减少)。
二分类自变量
系数为比数比的对数值,由此比数比
多分类自变量
以第i类作参照,比较相邻或相隔的两个类别。
连续型自变量
当自变量改变一个单位时,比数比为
四、比较因子分析与结构方程分析:
因子分析:
因子分析模型是主成分分析的推广,利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
主要用来研究变量之间或研究样品之间的相关关系。
其基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。
因子分析无法对一下不可直接测量的变量进行处理,不能处理误差以及测量误差间的关系。
结构方程模型:
潜变量间的关系,即是结构模型,整个分析称为结构方程模型。
相对于因子分析,结构方程模型可以同时处理多个因变量;容许自变量和因变量含测量,即允许误差的存在;同时估计因子结构和因子关系;容许更大弹性的测量模型;估计整个模型的拟合程度,可用于用以比较不同模型。
五、主成分分析与因子分析的区别
1). 主成分分析是通过变量变换把注意力集中在具有较大变差的那些主成分上,而舍弃那些变差小的主成分;因子分析是因子模型把注意力集中在少数不可观测的潜在变量(即公共因子)上,而舍弃特殊因子。
2). 主成分分析是将主成分表示为原观测变量的线性组合,而因子分析则是对原观测变量分解成公共因子和特殊因子两部分
3). 主成分的各系数,是唯一确定的、正交的。
不可以对系数矩阵进行任何的旋转,且系数大小并不代表原变量与主成分的相关程度;而因子模型的系数矩阵是不唯一的、可以进行旋转的,且该矩阵表明了原变量和公共因子的相关程度。
4). 主成分分析,可以通过可观测的原变量X直接求得主成分Y,并具有可逆性;因子分析中的载荷矩阵是不可逆的,只能通过可观测的原变量去估计不可观测的公共因 子,即公共因子得分的估计值等于因子得分系数矩阵与原观测变量标准化后的矩阵相乘的结果。
还有,主成分分析不可以像因子分析那样进行因子旋转处理。
5).综合排名。
主成分分析一般依据第一主成分的得分排名,若第一主成分不能完全代替原始变量,则需要继续选择第二个主成分、第三个等等,此时综合得分=∑ (各主成分得分×各主成分所对应的方差贡献率),主成分得分是将原始变量的标准化值,代入主成分表达式中计算得到;而因子分析的综合得分=∑(各因子得分 ×各因子所对应的方差贡献率)÷∑各因子的方差贡献率,因子得分是将原始变量的标准化值,代入因子得分函数中计算得到。
主成分分析(principalcomponentsanalysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。
主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。
这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。
因子分析(factoranalysis)模型是主成分分析的推广。
它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关矩阵。
主成分分析与因子分析的区别
1.因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。
因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊特殊因子,以及公共因子和特殊因子组合系数。
主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量(主成分)。
2.因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。
3.主成分分析中不需要有假设,因子分析则需要一些假设。
因子分析的假设包括:
各个公共因子之间不相关,特殊因子(specificfactor)之间也不相关,公共因子和特殊因子之间也不相关。
4.抽取主因子的方法不仅仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。
而主成分只能用主成分法抽取。
5.主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。
6.在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),指定的因子数量不同而结果不同。
在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。
7.和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。
而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。
当然,这中情况也可以使用因子得分做到。
所以这种区分不是绝对的。
六、欧式距离与马氏距离的比较
1、欧氏距离是在m维空间中两个点之间的真实距离。
设p维欧几里得空间Rp中的两点X=(X1,X2,…,Xp)’和Y=(Y1,Y2,…,Yp)’,它们之间的距离为d2(X,Y)=(X1-Y1)2+…+(Xp-Yp)2它没有考虑到总体的变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使它们的欧几里得距离不一定最近;另外,欧几里得距离受变量的量纲影响,这对多元数据的处理是不利的。
2、马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。
设和是来自均值向量为,协方差为的总体中的维样本,则总体内两点与之间的马氏距离定义为,定义点到总体的马氏距离为,它是一种有效的计算两个未知样本集的相似度的方法。
与欧氏距离不同的是它考虑到各种特性之间的联系,即独立于测量尺度。
它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
3、马氏距离与欧式距离的区别和联系
1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;
2)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可;
3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(3,4),(5,6)和(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。
这种情况下,也采用欧式距离计算。
4)在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点出现3)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧式距离的最大差异之处。
七、典型相关的基本思想及分析步骤
思想:
典型相关分析研究两组变量间整体的线性相关关系,它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量。
所研究的两组变量可以是一组变量为自变量,而另一组变量为因变量的情况,两组变量也可以处于同等的地位,但要求两组变量都至少是间隔尺度。
典型相关分析是借助于主成分分析的思想,对每一组变量分别寻找线性组合,使生成的新的综合变量的相关程度最大,这样一组新的综合变量称为第一对典型相关变量,同样的方法可以找到第二对、第三对。
。
。
使各对典型相关变量之间不相关,典型相关变量之间的简单相关系数称为典型相关系数。
典型相关分析就是用典型相关系数衡量两组变量之间的相关性。
步骤:
(1)确定典型相关分析的目标;
(2)设计典型相关分析;(3)检验典型相关分析的基本假设;(4)估计典型模型,评价模型拟合情况;(5)解释典型变量;(6)验证模型。
典型相关的基本思想:
典型相关分析(canonicalcorrelationanalysis)是研究两组变量之间相关关系的多元分析方法。
它借用主成分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系
典型相关分析的步骤:
第1步:
确定典型相关分析的目标
典型相关分析所适用的数据是两组变量。
我们假定每组变量都能赋予一定的理论意义,通常一组可以定义为自变量,另一组可以定义为因变量。
典型相关分析可以达到以下目标:
(1)确定两组变量是相互独立,或者相反,确定两组变量间存在关系的大小。
(2)为每组变量推导出一组权重,使得每组变量的线性组合达到最大程度相关。
最大化余下的相关关系的其他的线性函数是与前面的线性函数独立的。
(3)解释自变量与因变量组中存在的相关关系,通常是通过测量每个变量对典型函数的相对贡献来衡量。
第2步:
设计典型相关分析
典型相关分析作为一种多元分析方法,与其他的多元分析技术有共同的基本的要求。
其它方法(尤其是多元回归、判别分析和方差分析)所讨论的测量误差的影响、变量类型及变换也与典型相关分析有很大关系。
样本大小的影响和每个变量需要足够的观测都是典型相关分析经常遇到的。
研究者容易使自变量组和因变量组包含很多的变量,而没有认识到样本量的含义。
小的样本不能很好的代表相关关系,这样掩盖了有意义的相关关系。
建议研究者至少保持每个变量10个观测,以避免数据的“过度拟合”。
第3步:
典型相关分析的基本假定,、
线性假定影响典型相关分析的两个方面。
首先,任意两个变量间的相关系数是基于线性关系的。
如果这个关系不是线性的,一个或者两个变量需要变换。
其次,典型相关是变量间的相关。
如果关系不是线性的,典型相关分析将不能测量到这种关系。
第4步:
推导典型函数、评价整体拟合情况
每个典型函数都包括一对变量,通常一个代表自变量,另一个代表因变量。
可从变量组中提取的典型变量(函数)的最大数目等于最小数据组中的变量数目。
比如,一个研究问题包含5个自变量和3个因变量,可提取的典型函数的最大数目是3。
第5步:
解释典型变量
即使典型相关系数在统计上是显著的,典型根和冗余系数大小也是可接受的,研究者仍需对结果作大量的解释。
这些解释包括研究典型函数中原始变量的相对重要性。
主要使用以下三种方法:
(1)典型权重(标准化系数),
(2)典型载荷(结构系数),(3)典型交叉载荷。
第6步:
验证与诊断
与其他的多元分析方法一样,典型相关分析的结果应该验证,以保证结果不是只适合于样本,而是适合于总体。
八、fisher(费歇)判别法与base(贝叶斯)判别法比较
贝叶斯判别法是根据最小风险代价判决或最大似然比判决,根据贝叶斯准则进行判别分析的一种多元统计分析法
Fisher判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能的放开,然后再选择合适的判别规则,将新的样品进行分类判别。
区别:
(1)当k个总体的均值向量共线性程度较高时,Fisher判别法可用较少的判别函数进行判别,因而比Bayes判别法简单。
另外,Fisher判别法未对总体的分布提出什么特定的要求。
(2)Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失。
而这些不足恰是Bayes判别法的优点,但值得指出的是,如果给定的先验概率不符合客观实际时,Bayes判别法也可能会导致错误的结论。
联系:
在上述判别法中,只要满足一些必要的条件,它们将是等价的。
即在等协差阵条件下,Bayes线性判别法、Fisher线性判别法是等价的。
论述:
一、时间序列
时间序列是指同一现象在不同时间上的相继观察值排列而成的一组数字序列。
时间序列具有如下特点:
首先,序列中的数据或数据点的位置依赖于时间,即数据的取值依赖于时间的变化,但不一定是时间t的严格函数。
其次,每一时刻的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值预测。
再次,前后时刻(不一定是相邻时刻)的数值或数据点的位置有一定的相关性,这种相关性就是系统的动态规律性。
最后,从整体上看,时间序列往往呈现出某种趋势性或出现周期性变化的现象。
时间序列的常用模型:
1、AR(自回归)模型
2、MA(移动平均)模型
3、ARMA(自回归移动平均)模型
4、ARIMA(求和自回归移动平均)模型
二、降维
目前,众多研究者已相继提出大量的降维方法。
下面回顾几种最有代表性的经典降维方法:
主成分分析、线性判别分析、局部保持投影、典型相关分析、偏最小二乘回归等,其中前三种方法研究单视图数据,后两种方法则是针对多视图数据提出的。
1.主成分分析(PCA)旨在将原始变量变换为一小部分反映事物主要性质的变量(称之为主成分),从而将高维数据投影到低维空间,并且保证投影后的低维数据在最小平方意义下最优地描述原有高维数据。
PCA的各个主成分可通过求解基于数据协方差矩阵的特征向量得到。
正是由于PCA的这些特点使之成为多元数据分析的重要工具之一,并在模式识别中得以广泛使用。
2.线性判别分析。
与PCA类似,LDA也要寻找一组投影向量,并将高维数据投影到低维空间以实现数据的降维。
与PCA不同的是,LDA要使得原始数据投影到该低维空间后,不同类的数据尽可能地分开,同类的数据尽可能紧凑,即,在最小均方意义下选择最能够分开各类数据的低维特征。
由于数据降维的过程融入了数据的判别信息,通过LDA所获得的低维特征更有利于分类,因此LDA是目前在机器学习、数据挖掘等领域经典且热门的一个方法。
3.典型相关分析(CCA)。
CCA是研究两组变量之间相关性的一种多元统计分析方法。
它是PCA在两组变量上的推广,主要关注如何建立两组变量间的线性关系。
具体来说,CCA为每一组变量寻找一个投影向量,使其在投影后的低维空间中相关性最大。
4.局部保持投影(LPP)。
其基本思想就是用一个无向有权图来描述一个流形,然后通过图嵌入来找到原始高维数据的低维表示,使输入空间内的近邻点在降维后仍然尽量互相靠近,用于揭示数据中隐藏的低维流形结构。
LPP既解决了PCA等传统线性方法难以保持原始数据非线性流形的缺点,又解决了大多数流形学习方法计算效率低下、不能推广到新样本(out-of-sample)的缺点。
一般来说,一个复杂的全局非线性问题可以
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元统计分析考试 多元 统计分析 考试