欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    多元统计分析期末复习试题.docx

    • 资源ID:5883090       资源大小:46.20KB        全文页数:17页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析期末复习试题.docx

    1、多元统计分析期末复习试题第一章:多元统计分析研究的内容 (5点)1、 简化数据结构(主成分分析)2、 分类与判别(聚类分析、判别分析)3、 变量间的相互关系(典型相关分析、多元回归分析)4、 多维数据的统计推断5、 多元统计分析的理论基础第二三章:下图的例子中的两个二元正态分布的各个分量是相同的.f旦这两个持征向量在空闻的分布却不相同。从下图IT lit ; 1那么以下是上两图特征向量分布的协方超0%;刑霊:请问哪个是m哪个是右图了商一个是左图)如杲是一个三维句量,官的協方差矩阵是几乘几的每个元素又对应什么含义?(是个农璇阵,2 =(吟)=(輪-片) -門)还需難出的咼协方差矩阵并不只对正恋分

    2、布有旳它是多元随机变量中-个重酬数 学统计袤示方法,它描述中一个随机变量样本集中各个分量之间的相关性协方差悴还有一些很重要的属准是经常用列的。其中一个特性悬它是一个对称矩阵,如 杲它的第行第圖元素羔示咸鬥,则应有时映 这就是说与第j行第列的元素是相同的,这 就是楠也另-个挣性悬由于它的主对角元扁隔各分量的方差,因此眾情况下醍大 于零的饥因此协方差拒是正定的,这一点也是十分有曲轨XNp(厂)Xi,X2, ,x二、多维随机变量的数字特征1、 随机向量的数字特征随机向量X均值向量:随机向量X与Y的协方差矩阵:当 X=Y 时 Cov(X,Y)=D (X);当 Cov(X,Y)=0,称 X,Y 不相关。

    3、随机向量X与Y的相关系数矩阵:2、 均值向量协方差矩阵的性质设X,Y为随机向量,A,B为常数矩阵E( AX)=AE( X);E( AXB)=AE( X)B;D(AX)=AD(X)A Cov(AX,BY)=ACov(X,Y)B.若X, y独立,则coe(X,yl=(Ex反之亦成立-ex )=(卩 A 卩)cov( X , Y ) = E ( X EX )( Y EY )(3).X的协方差阵D(X)是对称非负定矩阵。例2.见黑板三、多元正态分布的参数估计(X,Y) = (rj)pq2、多元正态分布的性质(1).若贝U E(X)=,D(X)=特别地,当 为对角阵时,相互独立。若,A为sxp阶常数矩阵

    4、,d为s阶向量,AX+ d.多元正态分布A相关与独立杯)即正态分布的线性函数仍是正态分布,反之不成立例3.见黑板正态分布的参数估计1) , ,X(n)(1) “ 为来自yp元总体X的(简单)X n (X1,X2? ,XP 丿s (X -r)( x -厂)(2) 多元分布样本的数字特征匕-常见多元统计量样本”的理解-独立同截面1n样本均值向量 = iX X _ X Np( W)W p ( n - 1 ,工)厂 n样本离差阵S 样本协方差阵V= S ;样本相关阵R(3) ,V分别是 和 的最大似然估计;(4) 估计的性质是的无偏估计;,V分别是和的有效和一致估计; ;S第五章聚类分析:与S相互独立

    5、;、什么是聚类分析聚类分析是根据 物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合 。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)Q-型聚类分析(样品)R-型聚类分析(变量)变量按照测量它们的尺度不同 ,可以分为三类:间隔尺度、有序尺度、名义尺度。二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺 点)1、 中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法 ,它是先求出每 个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变

    6、换后的数据 。 不改变样本间的相互位置 ,也不改变变量间的相关性 。2、 标准化变换:首先对每个变量进行中心化变换 ,然后用该变量的标准差进行标准 化。经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为 0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较 。3、 极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其 最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中 的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在 0- 1之间;且变换后的数据都不再具有量纲 ,便于

    7、 不同的变量之间的比较。4、 对数变换:对数变换是将各个原始数据取对数 ,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构 。三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种 :距离,它是将每一个样品看作 p维空间的一个点,并用某种度量测量点与点之间的距离 ,距离较近的归为一类,距离较远的点应属于不同的类;相似系数,性质越接近的变量或样品,它们的相似系数越接近于 1或一 I,而彼此无关的变量或样品它们的相似系数则越接近于 0,相似的为一类,不相似的为不同类。样品之间的聚类即 Q型聚类分析,则常用距离(统计量)来测度样品之间的亲疏程度;而变量之间的聚

    8、类即 R型聚类分析,常用相似系数(统计量)来测度变量之间的亲疏程度。1、 距离的算法:明氏距离兰氏距离斜交空间距离马氏距离2、 相似系数的算法:夹角余弦相似系数3、 样品分类和指标分类:对样品分类常用距离,对指标分类常用相似系数4、 明氏(Minkowski )距离的两个缺点:明氏距离的值与各指标的量纲有关 ,而各指标计量单位的选择有一定的人为性和随意性 ,各变量计量单位的不同不仅使此距离的实际p _ _无(Xik Xi)( X jk Xi )意义难以说清k,谕且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距J Jkg(Xik - X;)2 k2(Xjk - Xj)2离的数值依赖

    9、于各变量计量单位的选择 。明氏距离的定义没有考虑各个变量之间的相关性和重要性。实际上,明考夫斯基距离是把各个变量都同等看待 ,将两个样品在各个变量上的离差简单地进行了综合 .5、 相似系数:通常所说相关系数,一般指变量间的相关系数 ,作为刻划样品间的相似关系也可类似给出定义,即第i个样品与第j个样品之间的相似系数定义为 :实际上,就是两个向量中心化后的夹角余6、距离和相似系数选择的原则 :(1)所选择的亲疏测度指标在实际应用中应有明确的意义。(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。(3 )适当地考虑计算工作量的大小练习:1 聚类分析是建立一种

    10、分类方法 ,它将一批样品或变量按照它们在性质上的 _进行科学的分类2 Q型聚类法是按行聚类,R型聚类法是按 _进行聚类。3 Q型聚类统计量是_而R型聚类统计量通常 采用_。4在聚类分析中需要对原始数据进行无量纲化处理 ,以消除不同量纲或数量级的影响 ,达到数据间可同度量的目的。常用的无量纲化方法有以下几种 : 、 、 。5 Q型聚类方法有 、 、 等。第六章判别分析:1四种判别方法:距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。2贝叶斯Bayes判别法:距离判别方法简单实用 ,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失;Fisher判别法随着总体个数的增加 ,建立

    11、的判别式也增加,计算量加大,如果考虑各总体的重要性,问题会突出而简单许多。既要考虑到各个总体出现的先验概率 ,又要考虑到错判造成的损失 ,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。基本思想:总是假定对所研究的对象已有一定的认识 ,常用先验分布来认识它 ,然后,基于抽取的样本对先验概率作修正 ,得到后验概率,最后采用相应的判别准则 (如误判率最小准则,后验概率最大准则等)进行判别。Bayes判别法,对各类(总体)的分布 有特定的要求,即已知先验概率和分布密度函数 。3.4各判别法之间的联系:在正态等协方差阵及先验概率相等的条件下贝叶斯判别与距离判 别等价;不加权的Fishe

    12、r判别法等价于距离判别法练习:1.判别分析是要解决在研究对象已 的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法 。2. 用判别分析方法处理问题时 ,通常以 为衡量新样本点与各已知组别接近程度的指标。3. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有、 。4在p维空间Rp中,点与点之间的接近和疏远尺度用 衡量,最简单的就是 或 。5.类内样本点接近,类间样本点疏远的性质,可以通过 与 勺大小差异表现出来,而两者的比值能把不同的类区别开来 。这个比值越大,说明类与类间的差异越 _,x G1 若 D2(x, G1) :: D2(x,G2)2 2分类效果越

    13、。 x G2 右 D (x, G1) - D (x,G 2)6.Fisher判别法是找一个由p个变量组成的 使得各自组内点的 可能接近,而不同组间点的尽可能疏远 。简答题:1.判别分析的分类:距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。2. 判别的基本思想:是根据已掌握的、历史上若干样本的 p个指标数据及所属类别的信 息,总结出该事物分类的规律性,建立判别公式和判别准则。根据总结出来的判别公式和 判别准则,判别未知类别的样本点所属的类别 。3. 简述两个总体的判别及判别准则 :基本思路:(1)统计模型:设G1 , G2是两个不同的 P维已知总体,x= (x1,xp) T 是一个待判样品;

    14、(2)距离判别准则(3)判别函数:4. 简述Fisher判别法及具体判别步骤:Fisher判别的思想是投影,将k组p维数投影到某 一个方向,使得他们的投影组与组之间尽可能的分开 。5. 简述逐步判别基本原理:逐步引入变量,每次把一个判别能力最强的变量引入 ,每引入一个新的变量,对老变量又逐个进行检验 ,如其判别能力因新变量的引入而变得不显著,应把它从判别式中剔除,最终建立的判别函数中仅保留判别能力显著的变量 。6. 简述BAYES判别分析与其它判别方法的优劣 :(1)与距离判别的优劣比较:距离判别 优于两个总体情况下的判别,对两个总体几乎没有任何要求 ,简捷,实用,易懂;距离判 别法在多个总体

    15、时,没有考虑各总体出现的概率,对各个变量的重要性一视同仁 ,难免产 生误判。Bayes判别法对的理论与方法严密而完善 ,对研究对象的信息利用充分 ,误判率2 2W(x) = D (x,G2) D (x,G1)大大降低,但计算较复杂。(2)与Bayes判别法的比较:Eayes判别与Fish er判别的比较:对总体的分布要求不同;多个总体下,Fisher判别的计算量大, 但均值向量共线性程度较好时 ,可以考虑用Fisher判别;各总体出现的重要性不同时应使用是Bayes判别。第七章、主成分分析1主成分分析就是设法将原来变量重新组合成一组新的相互无关的综合变量来代替原来的 变量,并尽可能多地反映原来

    16、变量的信息 。数学表现为:Var (Yj)最大;cov(Yi , Yj)=O ;,它们互不相关,其方差的特征2主成分就是以协方差阵的特征向量为系数的线性组合根。主成分的名次是按特征根取值大小的顺序排列的。i il 3主成分模型中各统计量的意义 :i 1 i 1比重扎,5称为贡献率2.00反映了.171 2 01)贡献率第、个主成分的方差在全部方差中所I 0 0 2原来P个指标多大的信息,有多大的综合能力 。fU,0.383.-0.9240924P383用这k个主成分的方差和在全部方差 -_ 0.000来描述,称为累积贡献率。2)累积贡献率0 :前k个主成分共有多大的综合能力中所占比重例:设的协

    17、方差矩阵为解得特征根为第一个主成分的贡献率为 5.83/ ( 5.83+2.00+0.17 )=72.875%,尽管第一个主成分的 贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息 ,所以应该取两个主成分。4.1)从协方差阵和相关系数矩阵出发计算主成分一般是不同的 。2) 主成分是原始变量的线性组合 ,故而起着原始变量的综合作用 。3) 对总体分布类型没有特定要求 。4) 主成分个数的确定。5) 主成分用于系统评估。6)除主成分分析之外,还有主成分回归和加权主成分分析填空:1、 对P元正态分布变量来说,找主成分的问题就是找 P维空间中的椭球体的主轴问题 。2、 样本主成分的总方差等于

    18、 。_3、 原始变量协方差矩阵的特征根的统计含义是 4、 主成分表达式的系数向量是 协方差阵 的特征向量。5、 主成分分析就是通过适当的变量替换,使新变量成为原变量的线性组合,并寻求主成分 来分析事物的一种方法。第八章、因子分析1什么是因子分析及基本思想多元数据常常包含大量的测量变量 ,有时这些变量是相互重叠,存在相关性。因子分析的目的就是从实验所得的数据样本中概括和提取出较少量的关键因素 ,它们能反映和解释所得的大量观测事实 ,从而建立最简洁、最基本的概念系统,揭示出事物之间最本质的联系。因子分析的基本思想是通过变量 (或样品)的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变

    19、量去描述多个变量 (或样品)之间的相关关系。2主成分分析与因子分析的联系与区别 ?相同之处:都是多元数据处理降维的统计方法 ;求解过程的出发点是一样的 ;不同之处:主成分分析是变量变换 :原始变量的线性组合表示新的综合变量 ,即主成分;而因子分析需要构造因子模型 :潜在的假想变量和随机影响变量的线性组合表示原始变量;主成分的系数是唯一的;而因子分析的载荷系数是不唯一的 ;3因子载荷aij的统计意义:因子载荷ay是第i个变量与第j个公共因子的相关系数载荷矩阵中第i行,第j列的元素)反映了第i个变量与第X2j个公共因子3相关重要性 。绝对值越 一 1 1/5 -1/5大,相关的密切程度越高。2/5

    20、-1/5 -2/5 1例题:假定某地固定资产投资率 -,通货膨胀率 ,失业率 ,相关系数矩阵为、=1.55 ,2 =0.85 =0.60.475 0.883 0U = 0.629 -0.331 0.707-0.629 0.331 0.7070.475、1.550.883、0850 10.5690.8140 1A =0.629*1.550.331、0.850.707、0.6=0.783-0.3050.5480.629、1.550.331 0.850.707、0.6(-0.7830.3050.548 _X1 0.569F1 0.814F2 x2 0.783F, -0.305F2 0.548F3 x

    21、3 = -0.783F; 0.305F2 0.548F3试用主成分分析法求因子分析模型 。特征根为:可取前两个因子 F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55。第一公因子F2为投资因子,对X的贡献为0.85。共同度分别为1,0.706,0.706。4.为什么要旋转因子:由于因子载荷阵是不惟一的 ,所以应该对因子载荷阵进行旋转 。目三种主要的正交旋转法:四次方最大法、方差最大法和等量最大法5.因子分析通常包括以下五个步骤:选择分析的变量;计算所选原始变量的相关系数矩阵;提取公共因子;因子旋转;计算因子得分。6变量共同度的统计意义:变量的共同度是因子载荷矩阵的第 i行的

    22、元素的平方和。记7因子分析数学模型:X=AF填空:1.因子分析是把每个原始变量分解为两部分因素 ,一部分是_公共因子_,另一部分为 特殊因子_。2. 变量共同度是指因子载荷矩阵中 _变量所在行元素平方和_。3. 公共因子方差与特殊因子方差之和为 1 。4因子分析和主成分分析在求解过程中都是从出发简答:1 .比较因子分析和主成分分析模型的关系X i,说明它们的相似和不同之处hi22 .能否将因子旋转的技术用于主成分分析,使主成分有更鲜明的实际背景能,用了就是因子分析,旋转之后不叫主成分(这一句就行),公因子的方差不等于特征值,因此不能旋转3因子分析中为什么要进行因子旋转?通过因子旋转,可以使每个

    23、变量只在一个公共因子上有较大的载荷,因此因子分析模型是适用的4.什么是因子得分?因子得分有何作用?在因子分析中,得出公共因子后,可以根据原始变量计算出各个样本 (个体)在每个因子上的得分,称为因子得分,因子得分可以,也可有多种求解方法,计算出因子得分后,可以把各个因子作为新的变量用于其他分析 以来进行综合评价等第九章、对应分析1对应分析:也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交互汇总表来 揭示变量间联系。可以揭示同一变量的各个类别之间的差异 ,以及不同变量各个类别之间 的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形张图解上,将样品的大类及其属性

    24、在图上直观而又明了地表示出来 ,具有直观性。2.对应分析方法的优缺点 :(1)定性变量划分的类别越多,这种方法的优越性越明显(2)揭示行变量类间与列变量类间的联系 (3)将类别的联系直观地表现在图形中 (4)不能用于相关关系的假设检验 (5)维数有研究者自定 (6)受极端值的影响第十章:1研究两组随机变量之间的相关性用典型相关分析 。典型相关分析就是分别构造各组变量的适当线性组合,将两组变量的相关性转化为两个变量的相关性 。数学表现为: 最 大;U和V分别来自两组变量的线性组合2课件P21页例题。第十一章多重多兀回归分析1.回归分析的功能及涵义:回归分析是研究一个(或多个)因变量对于一个或多个

    25、其他 变量(即自变量)的依存关系,并用数学模型加以模拟,目的在于根据已知的或在多次重 复抽样中固定的解释变量之值 ,估计、预测因变量的总体平均值。2.回归分析的研究思路和步骤 : 根据研究问题的性质、要求建立回归模型根据样本观测值对回归模型参数进行估计,求得回归方程。对回归方程、参数估计值进行显著性检验。并从影响因变量的自变量中判断哪些显著 ,哪些不显著。利用回归方程进行预测。3.多元线性分析中逐步回归的原理基本操作思想:第一组回归方程:1、 首先选一个因变量 y1,对它来筛选所有自变量;转22、 选第二个因变量y2 ,考虑y1,y2中是否有剔除;转33、 若没有剔除,由y1,y2筛选自变量;

    26、转44、 重复第二步;转2第二组回归方程:1、 原始数据中删除第一组回归方程中已入选的因变量的资料 ;2、 重复整个过程指导因变量都有了回归方程时结束 。操作原理:不断的假设检验最终目标:因变量分组具体计算步骤:第1步:确定自变量和因变量的取舍标准 ;设Fx和Fy分别为自变量和因变量的引入和剔除临界值(可取相等),第2步:任意(或回归平方和最大者)选入一个因变量 Y1 。假设k步后,此时已引入 ml 个自变量和pl个因变量;第3步:逐个检查是否需要剔除自变量 ,如有剔除转回三步;第6步:逐个检查是否需要引入因变量 ,如有引入转到第三步;第7步:计算回归方程。如果自第二步 第六步已引入k个因变量,则计算此组的k个回归 方程;第8步:删除已引入的因变量的数据而保留所有自变量的数据 ,从第二步起继续计算下一组回归方程,如此继续,直到全部因变量都有了回归方程为止 。附注:回归分析中的自变量是非随机性的且自变量之间不存在严格线性相关 (共线性);因变量之间是允许线性相关关系的 ;若是多重多元且共线性模型,将使用偏最小二乘回归分析 (加入主成分分析思想,典型相 关分析的操作方法)


    注意事项

    本文(多元统计分析期末复习试题.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开