多元统计分析简答题docWord文档下载推荐.docx

资源ID：3427444 资源大小：71.02KB 全文页数：36页
资源格式： DOCX 下载积分：3金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要3金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

多元统计分析简答题docWord文档下载推荐.docx

1、如果被解释变量和解释变量之间存在线性关系，则应进行线性回归分析，建立线性回归模型；如果被解释变量和解释变量之间存在非线性关系，则应进行非线性回归分析，建立非线性回归模型。3）建立回归方程根据收集到的样本数据以及前步所确定的回归模型，在一定的统计拟合准则下估计出模型中的各个参数，得到一个确定的回归方程。4）对回归方程进行各种检验由于回归方程是在样本数据基础上得到的，回归方程是否真实地反映了事物总体间的统计关系，以及回归方程能否用于预测等都需要进行检验。5）利用回归方程进行预测5.多重共线性问题、不良后果、解决方法多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系

2、或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系，即存在不全为 0 的 p 个常数 Ci,C2, ,Cp 使得 CiXii+C2Xi2 +CpXip 0,i=1,2, , n不良后果：模型存在完全的多重共线性，则资料阵 X的秩p+1，从而无法得到回归参数的估计量。对于近似多重共线性情况，虽有 r（X）=p+1，但|XTX|0,从而矩阵（XTX） -1的主对角线上的元素很大，使得估计的参数向量的协方差阵的对角线上的元素也很大，导致普通最小二乘参数估计量并非有效。检验方法：方差扩大因子（ VIF ）法和特征根判定法方差扩大因子表达式为：VIFi=1心-Ri2），

3、其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时，表明自变量间存在多重共线性。解决方法：当发现自变量存在严重的多重共线性时，可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计（如采用岭回归法、主成分法、偏最小二乘法等）等方法来克服多重共线性。6.为什么要进行回归方程的显著性检验？答：对于任意给定的一组观测数据（xi1,xi2,.,xip;yi），（i=1,2,.,n），我们都可以建立回归方程。但实际问题很可能 y 与自变量 x1,x2,.,xp 之间根本不存在线性关系，这时建立起来的回归方程的效果一定很差，即回归值 yi 实际上不能拟合真实

4、的值 yi 。即使整个回归方程的效果是显著的，在多元的情况下，是否每个变量都起着显著的作用呢？因此还需要对各个回归系数进行显著性检验，对于回归效果不显著的自变量，我们可以从回归方程中剔除，而只保留起重要作用的自变量，这样可以使回归方程更简练。7.统计性的依据是什么？给出一个回归方程如何做显著性检验？统计性的依据是方差分析。对于多元线性回归方程作显著性检验就是要看自变量 x1,x2,.xp 从整体上对随机变量y是否有明显的影响，即检验假设 H0: B仁B 2=.= B p=0 H1:至少有某个 B i 工0, 1=i=p如果H0被接受，则表明y与x1,x2,.xp之间不存

5、在线性关系，为了说明如何进行检验，我们首先要建立方差分析表。在进行显著性检验中，我们可以用 F 统计量来检验回归方程的显著性，也可以用 P 值法做检验。F 统计量是：F=MSR/MSE=SSR/p/SSE/（n-p-1）当H0为真时，FF（p,n-p-1）。给定显著性水平a,查F分布表得临界值F1-a （p,n-p-1），计算F的观测值，若F0F0），定显著性水平a，若pta /2（ n-p-1）时，拒绝H0。反之，则接受H0。数据的中心化和标准化目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义: 相当于将坐标原点移至样本中心，而坐标系

6、的平移并不改变直线的斜率，只改变了截距。通过对残差进行分析，可以在一定程度上回答下列问题:1）回归函数线性假定的可行性；2）误差项的等方差假设的合理性；3）误差项独立性假设的合理性；4）误差项是否符合正态分布；5）观测值中是否存在异常值；6）是否在模型中遗漏了某些重要的自变量。8.标准化回归方程与非标准化回归方程有何不同？在怎样的情况下需要将变量标准化？标准化回归方程就是将自变量因变量都标准化后的方程。在SPSS输出的回归系数中有一列是标准化的回归系数，由于都标准化了，因此标准化方程中没有常数项了。对数据标准化，即将原始数据减去相应变量的均数后再除以该变量的标准差，计算得到的回归方

7、程称为标准化回归方程，相应的回归系数为标准化回归系数。一般情况下的回归，并不必须标准化，直接回归即可。在做主成分分析包括因子分析时，则必须标准化。9.回归分析和相关分析的区别和联系相关分析和回归分析都是对客观事物数量依存关系的分析，均有一兀和多兀，线性与非线性之分，在应用中相互结合渗透，但仍有差别，主要是：（1）相关分析主要刻画两类变量间线性相关的密切程度，而回归分析则是揭示一个变量如何与其他变量相联系，并可由回归方程进行控制和预测（2）在相关分析中，变量y与x处于平等的地位，在回归分析中，因变量 y处于被解释的特殊地位（3）在相关分析中所涉及的变量 y与x完全是随机变量；而在回归

8、分析中因变量y是随机变量，自变量可以是随机变量也可以是非随机变量。一般来说，只有存在相关关系才可以进行回归分析，相关程度越高，回归分析的结果就越可靠。10.回归方程的基本假定？（1）回归函数的线性假设（2）误差项的等方差假设（3）误差项的独立性假设（4）误差项的正态分布假设11运用回归分析解决问题时，回归变量的选择理论依据的什么？选择回归变量时应注意哪些问题？（1）从拟合角度考虑，可以采用修正的复相关系数达到最大的准则准则1：修正的复相关系数Ra2达到最大。因为：Ra2=1-MSE/（SST/（n-1）从这个关系式容易看出，Ra2达到最大时，MSE达到最小。（2）从预测的角度考虑，可以

9、采用预测平方和达到最小的准则及 Cp准则准则2:预测平方和PRESSP达到最小准则3: （Cp准则）（3）从极大似然估计角度考虑，可以采用赤池信息量化准则（ AIC准则）准则4:赤池信息量达到最小AIC=nln（SSEp）+2p选择AIC值最小的回归方程为最优回归方程自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型：全模型相应参数为有偏估计，选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型，全模型参数估计和预测是有偏估计，而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大

10、的，或虽有影响，但难于观测的自变量是有利的。12.逐步回归方法的基本思想与步骤基本思想：有进有出。具体做法是将变量一个一个引入，引入变量的条件是通过了偏F统计量的检验，同时，每引入一个新变量后，对已入选方程的老变量进行检测，将经检验认为不显著的变量剔除，此过程经过若干步，直到既不能引入新变量又不能剔除老变量为止。基本步骤：（1）对于每个自变量Xi（1w i m）,拟合m个一元线性回归模型，若 RFe,则所选择含有自变量 xi1 的回归模型为当前模型，否则，没有变量引入模型，选择过程结束，即认为所有自变量对 y 的影响均不显著。（2）在第一步的基础上，再将其余的m-1个自变

11、量分别加入此模型中，得到m-1 个二元回归方程，若若FiiFe则将自变量Xi2引入模型，进一步考察Xi2引入模型后，Xii对y的影响是否仍显著，若Fl=0 ；dij=0等价于点i和点j为同一点，即X（i）=X（j）；对一切的 i,j ，dij=dji ；三角不等式成立，即对一切的i,j,k ，有dij=dik+dkj21.系统聚类法的基本思想和步骤。有哪些常用的系统聚类法？（1）将聚类的n个样品（或者变量）各自看成一类，共有 n类；（2）按照事先选定的方法计算每两类之间的聚类统计量，即某种距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得 n-1类；（3）按前面的计算方法

12、计算新类与其他类之间的距离（或者相似系数），将关系最密切的两类并为一类，其余不变，即得 n-2类；（4）如此继续下去，直到最后所有样品（或者变量）归为一类为止。（1） n个样品（或者变量）各自成一类，一共有 n类。计算两两之间的距离，显然D （Gp,Gq） =dpq，构成一个对称矩阵D（o）=（dij）nxn,其对角线上的元素全为0.（2）选择D（o）中对角线元素以外的上（或者下）三角部分中的最小元素，设其为D （ Gp,Gq），与其下标相对应，将类Gp与Gq合并成一个新类，记为Gr。计算 Gr与其他类Gk （k工p,q）之间的距离。（3）在D（0）中划去与Gp、Gq所对应的两行和两

13、列，并加入由新类 Gr与其他各类之间的距离所组成的一行和一列，得到一个新的 n-1阶对称距离矩阵D（1）。（4）由D（1）出发，重复步骤（2）（3）得到对称矩阵D（2）;再由D（2）出发，重复步骤（2）（3）得到对称矩阵D（3）,.，依次类推，直到n个样品（或者变量）聚为一个大类为止。（5）在合并某两类的过程中记下两类样品（或者变量）的编号以及所对应的距离（或者相似系数），并绘制成果聚类图。（6）决定类的个数以及聚类结果。常用的系统聚类法有：最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法22模糊聚类法的基本思想和步骤采用模糊数学语言对事物按一定的要求进行描述和

14、分类的数学方法称为模糊聚类分析，模糊聚类分析一般是指根据研究对象本身的属性来构造模糊矩阵，并在此基础上根据一定的隶属度来确定聚类关系，即用模糊数学的方法把样本之间的模糊关系定量的确定，从而客观且准确地进行聚类。模糊聚类分析所讨论的对象，事先没有给定任何模式供分类参考，要求按照样本各自的属性特征加以分类。聚类就是将数据集分成多个类或簇，使得各个类之间的数据差别应尽可能大，类内之间的数据差别应尽可能小，即为“最小化类间相似性，最大化类内相似性”原则。（1）选定一种计算距离或相似系数的公式。（2）由观测数据矩阵计算样品间的距离 dj（1wi,j n）或变量间的相似系数rj（1 i,j

15、m），形成距离矩阵D=（dj） nxn或相似系数矩阵R=（rij）mxm（3）将距离矩阵D或相似系数矩阵R中的元素压缩到0与1之间，形成模糊矩阵 A=（aj）（4）将模糊矩阵A改造成为模糊等价矩阵（5）选取截取水平入（0入1），对样本进行模糊聚类（6）按入的值画出聚类的谱系图。23如何确定合理的聚类数目？聚类数目的真正确定在于研究的问题是什么，以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中，可以根据方差分析理论，应用混合F统计量来确定最佳分类数。24、在进行系统聚类分析时，不同的类间距离计算方法有何区别？请举例说明

16、。设dij表示样品Xi与Xj之间距离，用Dij表示类Gi与Gj之间的距离。（1）Xi min Gr dj = minDkp,Dkq（2）最长距离法Dpq人 max. Gq *Dkr =max dijXi Gk,Xj Gr JmaxDkp,Dkq中间距离法2 1 2 Dkr Dkp2其中Dkq 皿（4）重心法1Xr （n pXp n qXq） nrDkr21 D2kpnr上Dkqnpnq2-D2q（5）类平均法-、npnq Xi Gv di2XGjD：- dj2ne Xi Gk Xj Gr= D2p nr nr（6）可变类平均法2 n. 2 p 2Dkr 二（1 一：）（Dkp巴 D：q）

17、其中1是可变的且1 （7）可变法（8）离差平方和法B 八（Xit -Xj（Xit -Xt）nr nk代Dpq25.数据变换由于每个样品各个变量的观测值具有不同的数量级和不同的测量单位，所以有必要进行变换，得到无量纲数据，以消除其中的不合理现象，提高分类效果，常用的数据变换方法有：标准化法、正规化法、极差标准化法、极大值正规化法、均值正规化法26.Q型聚类统计量考虑对样品进行聚类，描述变量之间的接近程度常用“距离”来度量。两个样品之间的距离越小，表示两者之间的共同点越多；距离越大，共同点越少。常用距离有：绝对值距离、欧式距离、闵克夫斯基距离、切比雪夫距离、马哈拉诺比斯距离27.R型聚

18、类统计量考虑对样品进行聚类，描述变量之间的接近程度常用“相似系数”来度量。两个变量之间的相似系数的绝对值越接近于 1,表示两者关系越密切；绝对值越接近于0,关系越疏远。常用相似距离有：夹角余弦和相似系数。28.简述主成分分析的基本思想。主成分分析的基本思想是构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。29.主成分的求取首先，求其协方差矩阵工的各特征值及相应的正交单位化特征向量，然后，以特征值从大到小所对应的特征向量为组合系数所得到的 X1,X2

19、,.,Xp 的线性组合分别取作X的第一、第二、直至第p个主成分，而各主成分的方差等于相应的特征值。30.主成分分析的基本思想，可以做什么应用及在应用中要选几个主成分？主成分分析的基本思想：构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差（或样本方差）来度量，这是经典的信息量的表示方法。解决的问题：（1）研究的问题当中，随机变量的个数比较大，将增大计算量和分析问题的复杂性；（2）随机变量之间存在

20、着一定的相关性，它们的观测样本所反映的信息在一定程度上存在着重叠的。一般地，在约束条件liTli=1Cov（Yi,Yk）=l艺I k=0,k=1,2,.,i-1 之下，使得Var （Y）达到最大，由此I i确定的Y=X称为X1,X2,.,X p的第i个主成分。31.比较主成分分析与判别分析的基本思想。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是：设法将原来众多具有一定相关性的指标（设为p个），重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来P个指标作线性组合，作为新的指标。第一个线性组合，即第一个综合指标记为丫1,

注意事项

本文（多元统计分析简答题docWord文档下载推荐.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。