欢迎来到冰点文库! | 帮助中心 分享价值,成长自我!
冰点文库
全部分类
  • 临时分类>
  • IT计算机>
  • 经管营销>
  • 医药卫生>
  • 自然科学>
  • 农林牧渔>
  • 人文社科>
  • 工程科技>
  • PPT模板>
  • 求职职场>
  • 解决方案>
  • 总结汇报>
  • ImageVerifierCode 换一换
    首页 冰点文库 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    多元统计分析简答题Word文件下载.docx

    • 资源ID:6844857       资源大小:115.29KB        全文页数:34页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录
    二维码
    微信扫一扫登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    多元统计分析简答题Word文件下载.docx

    1、1)确定回归方程中的解释变量和被解释变量。2)确定回归模型 根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。3)建立回归方程 根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。4)对回归方程进行各种检验 由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。5)利用回归方

    2、程进行预测5.多重共线性问题、不良后果、解决方法多重共线性是指线性回归模型中的自变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。常见的是近似的多重共线性关系,即存在不全为0的p个常数C1,C2, ,Cp使得C1Xi1+C2Xi2+CpXip0,i=1,2,n不良后果:模型存在完全的多重共线性,则资料阵X的秩p+1,从而无法得到回归参数的估计量。对于近似多重共线性情况,虽有r(X)=p+1,但|XTX|0,从而矩阵(XTX)-1的主对角线上的元素很大,使得估计的参数向量的协方差阵的对角线上的元素也很大,导致普通最小二乘参数估计量并非有效。检验方法:方差扩大因子(VIF)

    3、法和特征根判定法方差扩大因子表达式为:VIFi=1/(1-Ri2),其中Ri为自变量xi对其余自变量作回归分析的复相关系数。当VIFi很大时,表明自变量间存在多重共线性。解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。6.为什么要进行回归方程的显著性检验?对于任意给定的一组观测数据(xi1,xi2,.,xip;yi),(i=1,2,.,n) ,我们都可以建立回归方程。但实际问题很可能y与自变量x1,x2,.,xp之间根本不存在线性关系,这时建立起来的回归方程的效果

    4、一定很差,即回归值yi实际上不能拟合真实的值yi。即使整个回归方程的效果是显著的,在多元的情况下,是否每个变量都起着显著的作用呢?因此还需要对各个回归系数进行显著性检验,对于回归效果不显著的自变量,我们可以从回归方程中剔除,而只保留起重要作用的自变量,这样可以使回归方程更简练。7.统计性的依据是什么?给出一个回归方程如何做显著性检验?统计性的依据是方差分析。对于多元线性回归方程作显著性检验就是要看自变量x1,x2,.xp从整体上对随机变量y是否有明显的影响,即检验假设H0:1=2=.=p=0 H1:至少有某个i0,1=i=p如果H0被接受,则表明y与x1,x2,.xp之间不存在线性关系,为了说

    5、明如何进行检验,我们首先要建立方差分析表。在进行显著性检验中,我们可以用F统计量来检验回归方程的显著性,也可以用P值法做检验。F统计量是:F=MSR/MSE=SSR/p/SSE/(n-p-1) 当H0为真时,FF(p,n-p-1)。给定显著性水平,查F分布表得临界值F1-(p,n-p-1),计算F的观测值,若F0F0),定显著性水平,若pt/2(n-p-1)时,拒绝H0。反之,则接受H0。数据的中心化和标准化目的:解决利用回归方程分析实际问题时遇到的诸多自变量量纲不一致的问题。数据中心化处理的几何意义:相当于将坐标原点移至样本中心,而坐标系的平移并不改变直线的斜率,只改变了截距。通过对残差进行

    6、分析,可以在一定程度上回答下列问题:1)回归函数线性假定的可行性;2)误差项的等方差假设的合理性;3)误差项独立性假设的合理性;4)误差项是否符合正态分布;5)观测值中是否存在异常值;6)是否在模型中遗漏了某些重要的自变量。8.标准化回归方程与非标准化回归方程有何不同?在怎样的情况下需要将变量标准化?标准化回归方程 就是将自变量因变量都标准化后的方程。在spss输出的回归系数中有一列是标准化的回归系数,由于都标准化了,因此标准化方程中没有常数项了。对数据标准化,即将原始数据减去相应变量的均数后再除以该变量的标准差,计算得到的回归方程称为标准化回归方程,相应的回归系数为标准化回归系数。一般情况下

    7、的回归,并不必须标准化,直接回归即可。在做主成分分析包括因子分析时,则必须标准化。9.回归分析和相关分析的区别和联系相关分析和回归分析都是对客观事物数量依存关系的分析,均有一元和多元,线性与非线性之分,在应用中相互结合渗透,但仍有差别,主要是:(1)相关分析主要刻画两类变量间线性相关的密切程度,而回归分析则是揭示一个变量如何与其他变量相联系,并可由回归方程进行控制和预测(2)在相关分析中,变量y与x处于平等的地位,在回归分析中,因变量y处于被解释的特殊地位(3)在相关分析中所涉及的变量y与x完全是随机变量;而在回归分析中因变量y是随机变量,自变量可以是随机变量也可以是非随机变量。一般来说,只有

    8、存在相关关系才可以进行回归分析,相关程度越高,回归分析的结果就越可靠。10.回归方程的基本假定?(1)回归函数的线性假设(2)误差项的等方差假设(3)误差项的独立性假设(4)误差项的正态分布假设11.运用回归分析解决问题时,回归变量的选择理论依据的什么?选择回归变量时应注意哪些问题?(1)从拟合角度考虑,可以采用修正的复相关系数达到最大的准则准则1:修正的复相关系数Ra2达到最大。因为:Ra2=1-MSE/(SST/(n-1)从这个关系式容易看出,Ra2达到最大时,MSE达到最小。(2)从预测的角度考虑,可以采用预测平方和达到最小的准则及Cp准则准则2:预测平方和PRESSp达到最小准则3:(

    9、Cp准则)(3)从极大似然估计角度考虑,可以采用赤池信息量化准则(AIC准则)准则4:赤池信息量达到最小AIC=nln(SSEp)+2p选择AIC值最小的回归方程为最优回归方程自变量的选择问题可以看成是应该采用全模型还是选模型的问题全模型正确误用选模型:全模型相应参数为有偏估计,选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型,全模型参数估计和预测是有偏估计,而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的,或虽有影响,但难于观测的自变量是有利的。12.逐步回归方法的基本思想与步骤有进有出。具体做法是将变量一

    10、个一个引入,引入变量的条件是通过了偏F统计量的检验,同时,每引入一个新变量后,对已入选方程的老变量进行检测,将经检验认为不显著的变量剔除,此过程经过若干步,直到既不能引入新变量又不能剔除老变量为止。基本步骤:(1)对于每个自变量xi(1im),拟合m个一元线性回归模型,若Fi1(1)FE,则所选择含有自变量xi1的回归模型为当前模型,否则,没有变量引入模型,选择过程结束,即认为所有自变量对y的影响均不显著。(2)在第一步的基础上,再将其余的m-1个自变量分别加入此模型中,得到m-1个二元回归方程,若若Fi1(2)FE则将自变量xi2引入模型,进一步考察xi2引入模型后,xi1对y的影响是否仍显

    11、著,若Fi1(2)FD,则剔除xi。(3)在第二步的基础上再将其余的m-2个自变量分别加入此模型中,拟合各个模型并计算偏F统计量值,与FE比较决定是否又新变量引入,如果有新的变量引入,还需要检验原模型中的老变量是否因为这个新变量的引入而不再显著,那样就应该被剔除。重复以上步骤,直到没有新的变量进入模型,同时在模型中的老变量都不能被剔除,则结束选择过程。13.在作判别分析时,如何检验判别效果的优良性?当一个判别准则提出以后,还要研究其优良性,即要考察误判概率。一般使用以训练样本为基础的回代估计法与交叉确认估计法。(1)误判率回代估计法回判过程中,用n12表示将本属于G1的样本误判为G2的个数,n

    12、21表示将本属于G2的样本误判为G1的个数,总的误判个数是n12+n21,误判率的回代估计为(n12+n21)/(n1+n2),但往往比真实的误判率要小。(2)误判率的交叉确认估计每次剔除训练样本中的一个样本,利用其余容量为n1+n2-1个训练样本来建立判别准则,再利用所建立的判别准则对删除的那个样本作判别,对训练样本中的每个样本做上述分析,以其误判的比例作为误判概率的估计。14、简述费希尔判别法的基本思想。从k个总体中抽取具有p个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数系数:确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p个指标值代入线性判别函数式

    13、中求出值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。15.Fisher判别法的基本思想基本思想是投影。将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能地分开,其中利用了一元差分的思想导出判别函数。这个函数可以是线性的,也可以是其他类型的函数。贝叶斯判别法的基本思想基本思想是假定对所研究是对象(总体)在抽样前就有一定的认识,常用先验概率分布来描述这种认识。然后基于抽取的样本再对先验概率做修正,得到后验概率分布,再基于后验概率分布做判别分析。16.简述费歇尔准则下两类判别分析的基本思想。费歇尔的判别方法,其基本思想是把p个变量x1,x2,.,xp综合成一个新变量y,y=c1

    14、x1+c2x2+.+cpxp=cx ,也即产生一个综合判别指标,要求已知的g个类Gk,k=1,2,.,g在这个新变量下能最大程度地区分开,于是可用这个综合判别指标判别未知样品的归属。其中c=(c1,c2,cp)为待定参数。判别方程除没有常数外,与回归方程非常相似,但两者有着本质的区别。在回归方程中,y为因变量,是一个已知的随机变量,有其样本测试值,回归分析的任务是选择一组参数,使得根据回归方程预测的因变量的值与实测值尽可能地接近;而判别模型中y只是一个综合变量,实际上并不存在这样一个变量,因而也没有实测值。判别模型的几何意义是把p维空间的点投影到一维空间(直线)上去,使各已知类在该直线上的投影

    15、尽可能分离。17.比较费歇尔准则下的两类判别方程与回归方程的异同。为什么判别方程中不需要常数项?除没有常数项外,与回归方程非常相似,但两者有着本质的区别。18.判别分析与聚类分析有何不同?聚类分析和判别分析有相似的作用,都是起到分类的作用。但是判别分析是已知分类然后总结出判别规则,是一种有指导的学习;而聚类分析则是有了一批样本,不知道它们的分类,甚至连分成几类都不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观测相差较多,这是无指导的学习。所以聚类分析依赖于对观测间的接近程度(距离)或相似程度的理解,定义不同的距离量度和相似性量度就可以产生不同的聚类结果。19.简

    16、述聚类分析的基本思想。有哪两类聚类分析?各自的作用?聚类分析就是根据空间点群的“亲疏”关系进行分类的一种方法。为此要给出表示空间点与点之间“亲疏”关系的相似性度量,然后讨论根据相似性度量进行点群簇分的方法和应用。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同分为Q型聚类分析(对样本进行聚类)和R型聚类(对变量进行聚类)。对样品或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离用来度量样品之间的相似性,而相似系数常用来度量

    17、变量间的相似性。20.距离系数需要满足的基本条件?点i和点j之间的距离dij可有各种不同的定义,只要其满足所谓的距离公理:对一切是i,j,dij=0;dij=0等价于点i和点j为同一点,即X(i)=X(j);对一切的i,j,dij=dji;三角不等式成立,即对一切的i,j,k,有dij=dik+dkj21.系统聚类法的基本思想和步骤。有哪些常用的系统聚类法?(1)将聚类的n个样品(或者变量)各自看成一类,共有n类;(2)按照事先选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-1类;(3)按前面的计算方法计算新类与其他类之间的距离(

    18、或者相似系数),将关系最密切的两类并为一类,其余不变,即得n-2类;(4)如此继续下去,直到最后所有样品(或者变量)归为一类为止。(1)n个样品(或者变量)各自成一类,一共有n类。计算两两之间的距离,显然D(Gp,Gq)=dpq,构成一个对称矩阵D(0)=(dij)nn,其对角线上的元素全为0.(2)选择D(0)中对角线元素以外的上(或者下)三角部分中的最小元素,设其为D(Gp,Gq),与其下标相对应,将类Gp与Gq合并成一个新类,记为Gr。计算Gr与其他类Gk(kp,q)之间的距离。(3)在D(0)中划去与Gp、Gq所对应的两行和两列,并加入由新类Gr与其他各类之间的距离所组成的一行和一列,

    19、得到一个新的n-1阶对称距离矩阵D(1)。(4)由D(1)出发,重复步骤(2)(3)得到对称矩阵D(2);再由D(2)出发,重复步骤(2)(3)得到对称矩阵D(3),.,依次类推,直到n个样品(或者变量)聚为一个大类为止。(5)在合并某两类的过程中记下两类样品(或者变量)的编号以及所对应的距离(或者相似系数),并绘制成果聚类图。(6)决定类的个数以及聚类结果。常用的系统聚类法有:最短距离法、最长距离法、中间距离法、重心法、来平均法、离差平方和法22.模糊聚类法的基本思想和步骤采用模糊数学语言对事物按一定的要求进行描述和分类的数学方法称为模糊聚类分析,模糊聚类分析一般是指根据研究对象本身的属性来

    20、构造模糊矩阵,并在此基础上根据一定的隶属度来确定聚类关系,即用模糊数学的方法把样本之间的模糊关系定量的确定,从而客观且准确地进行聚类。模糊聚类分析所讨论的对象,事先没有给定任何模式供分类参考,要求按照样本各自的属性特征加以分类。聚类就是将数据集分成多个类或簇,使得各个类之间的数据差别应尽可能大,类内之间的数据差别应尽可能小,即为“最小化类间相似性,最大化类内相似性”原则。(1)选定一种计算距离或相似系数的公式。(2)由观测数据矩阵计算样品间的距离dij(1i,jn)或变量间的相似系数rij(1i,jm),形成距离矩阵D=(dij)nn或相似系数矩阵R=(rij)mm(3)将距离矩阵D或相似系数

    21、矩阵R中的元素压缩到0与1之间,形成模糊矩阵A=(aij)(4)将模糊矩阵A改造成为模糊等价矩阵(5)选取截取水平(01),对样本进行模糊聚类(6)按的值画出聚类的谱系图。23如何确定合理的聚类数目?聚类数目的真正确定在于研究的问题是什么,以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中,可以根据方差分析理论,应用混合F统计量来确定最佳分类数。24、在进行系统聚类分析时,不同的类间距离计算方法有何区别?请举例说明。设dij表示样品Xi与Xj之间距离,用Dij表示类Gi与Gj之间的距离。(1). 最短距离法(2)最长距离法(3

    22、)中间距离法其中(4)重心法(5)类平均法(6)可变类平均法 其中是可变的且 1(7)可变法(8)离差平方和法25.数据变换由于每个样品各个变量的观测值具有不同的数量级和不同的测量单位,所以有必要进行变换,得到无量纲数据,以消除其中的不合理现象,提高分类效果,常用的数据变换方法有:标准化法、正规化法、极差标准化法、极大值正规化法、均值正规化法26.Q型聚类统计量考虑对样品进行聚类,描述变量之间的接近程度常用“距离”来度量。两个样品之间的距离越小,表示两者之间的共同点越多;距离越大,共同点越少。常用距离有:绝对值距离、欧式距离、闵克夫斯基距离、切比雪夫距离、马哈拉诺比斯距离27.R型聚类统计量考

    23、虑对样品进行聚类,描述变量之间的接近程度常用“相似系数”来度量。两个变量之间的相似系数的绝对值越接近于1,表示两者关系越密切;绝对值越接近于0,关系越疏远。常用相似距离有:夹角余弦和相似系数。28.简述主成分分析的基本思想。主成分分析的基本思想是构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。29.主成分的求取首先,求其协方差矩阵的各特征值及相应的正交单位化特征向量,然后,以特征值从大到小所对应的特征向量为组合系数所得到的X1,X2,.,Xp的线性组合分别取作

    24、X的第一、第二、直至第p个主成分,而各主成分的方差等于相应的特征值。30.主成分分析的基本思想,可以做什么应用及在应用中要选几个主成分?主成分分析的基本思想:构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差(或样本方差)来度量,这是经典的信息量的表示方法。解决的问题:(1)研究的问题当中,随机变量的个数比较大,将增大计算量和分析问题的复杂性;(2)随机变量之间存在着一定的相关性,它们的观测样本所反映的信息在一定程度上存在着

    25、重叠的。一般地,在约束条件liTli=1Cov(Yi,Yk)=liTlk=0,k=1,2,.,i-1之下,使得Var(Yi)达到最大,由此li确定的Yi=liTX称为X1,X2,.,Xp的第i个主成分。31.比较主成分分析与判别分析的基本思想。主成分分析就是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是:设法将原来众多具有一定相关性的指标(设为p个),重新组合成一组新的相互无关的综合指标来代替原来指标。数学上的处理就是将原来P个指标作线性组合,作为新的指标。第一个线性组合,即第一个综合指标记为Y1,为了使该线性组合具有唯一性,要求在所有线性组合中Y1的方差最大,即

    26、Var(Y1)越大,那么包含的信息越多。如果第一个主成分不足以代表原来p个指标的信息,再考虑选取第二个主成分Y2,并要求Y1已有的信息不出现在Y2中,即主成分分析是将分散在一组变量上的信息集中到某几个综合指标上的探索性统计分析方法。以便利用主成分描述数据集内部结构,实际上也起着数据降维作用。聚类分析根据对象不同可分为Q型聚类分析(对样本进行聚类)和R型聚类分析(对变量进行聚类)。对样本或变量进行聚类时,我们常用距离和相似系数来对样品或变量之间的相似性进行度量。距离常用来度量样品之间的相似性,而相似系数常用来度量变量间的相似性。32、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想

    27、。在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。33.因子分析的基本思想?因子分析是主成分分析的推广,它也是利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的 多元统计分析方法,因子分析的基本思想是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的变量相关性较低。每一组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分


    注意事项

    本文(多元统计分析简答题Word文件下载.docx)为本站会员主动上传,冰点文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰点文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2023 冰点文库 网站版权所有

    经营许可证编号:鄂ICP备19020893号-2


    收起
    展开