演讲技巧应用多元统计分析讲稿朱建平.docx
- 文档编号:12444920
- 上传时间:2023-06-05
- 格式:DOCX
- 页数:56
- 大小:131.14KB
演讲技巧应用多元统计分析讲稿朱建平.docx
《演讲技巧应用多元统计分析讲稿朱建平.docx》由会员分享,可在线阅读,更多相关《演讲技巧应用多元统计分析讲稿朱建平.docx(56页珍藏版)》请在冰点文库上搜索。
演讲技巧应用多元统计分析讲稿朱建平
(演讲技巧)应用多元统计分析讲稿(朱建平)
第一章多元分析概述
第一节引言
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。
近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。
然而,随着Internet的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。
在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。
显然,大量信息在给人们带来方便的同时也带来一系列问题。
比如:
信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一处理等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求.Internet的迅猛发展也使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。
这样又给多元统计分析理论的发展和方法的应用提出了新的挑战。
多元统计分析起源于上世纪初,1928年Wishart发表论文《多元正态总体样本协差阵的精确分布》,可以说是多元分析的开端。
20世纪30年代R.A.Fisher、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。
20世纪40年代在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。
20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。
20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。
20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。
在20世纪末与本世纪初,人们获得的数据正以前所未有的速度急剧增加,产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工智能和数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。
为了让人们更好的较为系统地掌握多元统计分析的理论与方法,本书重点介绍多元正态总体的参数估计和假设检验以及常用的统计方法。
这些方法包括判别分析、聚类分析、主成分分析、因子分析、对应分析、典型相关分析、多维标度法以及多变量的可视化分析等。
与此同时,我们将利用在我国广泛流行的SPSS统计软件来实现实证分析,做到在理论的学习中体会应用,在应用的分析中加深理论。
第二节应用背景
二、多元统计分析方法的应用
这里我们要通过一些实际的问题,解释选择统计方法和研究目的之间的关系,这些问题以及本书中的大量案例能够使得读者对多元统计分析方法在各个领域中的广泛应用有一定的了解。
多元分析方法从研究问题的角度可以分为不同的类,相应有具体解决问题的方法,参看表1.1。
多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、环境保护、军事科学、文学等方面都有广泛的应用,这里我们例举一些实际问题,进一步了解多元统计分析的应用领域,让读者从感性上加深对多元统计分析的认识。
问题
内容
方法
数据或结构性化简
尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。
多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析
分类和组合
基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。
判别分析、聚类分析、主成分分析、可视化分析
变量之间的相关关系
变量之间是否存在相关关系,相关关系又是怎样体现。
多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析
预测与决策
通过统计模型或最优准则,对未来进行预见或判断。
多元回归、判别分析、聚类分析、可视化分析
假设的提出及检验
检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。
多元总体参数估计、假设检验
1、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。
这八项指标存在一定的线性关系。
为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。
2、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。
如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。
可用主成分分析和因子分析法。
3、某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?
又比如,若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。
可用多元正态总体均值向量和协差阵的假设检验。
4、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。
如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。
5、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。
如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。
6、有100种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来了解这100种酒之间的结构关系。
这样的问题就可以用多维标度法来解决。
7、在地质学中,常常要研究矿石中所含化学成分之间的关系。
设在某矿体中采集了60个标本,对每个标本测得20个化学成分的含量。
我们希望通过对这20个化学成分的分析,了解矿体的性质和矿体形成的主要原因。
8、对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。
9、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。
10、在高考招生工作中,我们知道每个考生的基本情况,通过分析我们不仅可以了解到学生喜欢学习的科目,还可以进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力和记忆力等等对学习成绩的影响。
第二章多元正态分布的参数估计
第一节引言
多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵。
例如在研究公司的运营情况时,要考虑公司的获利能力、资金周转能力、竞争能力以及偿债能力等财务指标;又如在研究国家财政收入时,税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等都是需要同时考察的指标。
显然,如果我们只研究一个指标或是将这些指标割裂开分别研究,是不能从整体上把握研究问题的实质的,解决这些问题就需要多元统计分析方法。
为了更好的探讨这些问题,本章我们首先论述有关随机向量的基本概念和性质。
在实用中遇到的随机向量常常是服从正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于正态分布。
因此现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提的。
在多元统计分析中,多元正态分布占有很重要地位,本书所介绍的方法大都假定数据来之多元正态分布。
为此,本章将要介绍多元正态分布的定义和有关性质。
然而在实际问题中,多元正态分布中均值向量和协差阵通常是未知的,一般的做法是由样本来估计。
这是本章讨论的重要内容之一,在此我们介绍最常见的最大似然估计法对参数进行估计,并讨论其有关的性质。
第二节基本概念
一、随机向量
我们所讨论的是多个变量的总体,所研究的数据是同时p个指标(变量),又进行了n次观测得到的,我们把这个p指标表示为X1,X2,L,Xp,常用向量X=(X1,X2,L,XP)'表示对同一个体观测的p个变量。
这里我们应该强调,在多元统计分析中,仍然将所研究对象的全体称为总体,它是由许多(有限和无限)的个体构成的集合,如果构成总体的个体是具有p个需要观测指标的个体,我们称这样的总体为p维总体(或p元总体)。
上面的表示便于人们用数学方法去研究p维总体的特性。
这里“维”(或“元”)的概念,表示共有几个分量。
若观测了n个个体,则可得到如表2.1的数据,称每一个个体的p个变量为一个样品,而全体n个样品组成一个样本。
表2.1数据
变量
序号
1
2
在这里横看表2.1,记为
,
表示第个样品的观测值。
竖看表2.1,第列的元素
,
表示对第个变量的次观测数值。
因此,表2.1所反映出的样本资料可用矩阵表示为
(2.1)
简记为X。
定义2.1将个随机变量的整体称为维随机向量,记为。
在对随机向量的研究仍然限于讨论离散型和连续型两类随机向量。
二、多元分布
先回顾一下一元统计中分布函数和密度函数的定义。
设是一个随机变量,称为的概率分布函数或简称为分布函数,记为。
若随机变量在有限或可列个值上取值,记,且,则称为离散型随机变量,称,为的概率分布。
设,若存在一个非负函数,使得一切实数有:
,则称为的分布密度函数,简称为密度函数。
一个函数能作为某个随机变量的分布密度函数的重要条件是:
(1),对一切实数;
(2)。
定义2.2设是维随机向量,它的多元分布函数定义为
(2.2)
记为,其中,表示维欧氏空间。
多维随机向量的统计特性可用它的分布函数来完整地描述。
定义2.3设是维随机向量,若存在有限个或可列个维数向量,记,且满足,则称为离散型随机向量,称,为的概率分布。
设,若存在一个非负函数,使得对一切有(2.3)
则称为连续型随机变量,称为分布密度函数,简称为密度函数或分布密度。
一个元函数能作为中某个随机向量的密度函数的主要条件是:
(1),;
(2)
离散型随机向量的统计性质可由它的概率分布完全确定,连续型随机向量的统计性质可由它的分布密度完全确定。
【例2.1】试证函数
为随机向量密度函数。
证:
只要验证满足密度函数两个条件即可
(1)显然,当时有
(2)
定义2.4设是维随机向量,称由它的个分量组成的子向量的分布为的边缘(或边际)分布,相对地把的分布称为联合分布。
通过变换中各分量的次序,总可假定正好是的前个分量,其余个分量为,则,相应的取值也可分为两部分。
当的分布函数是时,的分布函数即边缘分布函数为:
当有分布密度时(亦称联合分布密度函数),则也有分布密度,即边缘密度函数为:
【例2.2】对例2.1中的求边缘密度函数。
解:
同理
定义2.5若个随机变量的联合分布等于各自的边缘分布的乘积,则称是相互独立的。
【例2.3】问例2.2中的与是否相互独立?
解:
由于,故与相互独立。
这里我们应该注意,由相互独立,可推知任何与独立,但反之不真。
定义2.6设,若存在且有限,则称为的均值(向量)或数学期望,有时也把和分别记为和,即,容易推得均值(向量)具有以下性质:
(1)
(2)
(3)
其中,、为随机向量,、为大小适合运算的常数矩阵。
定义2.7设,,称
(2.4)
为的方差或协差阵,有时把简记为,简记为,从而有;称随机向量和的协差阵为
(2.5)
当时,即为。
若,则称和不相关,由和相互独立易推得,即和不相关;但反过来,当和不相关时,一般不能推知它们独立。
当、为常数矩阵时,由定义可以推出协方差阵有如下性质:
(1)对于常数向量,有
(2)
(3)
(4)设为维随机向量,期望和协方差存在,记,,为常数阵,则
这里我们应该注意到,对于任何的随机向量来说,其协差阵都是对称阵,同时总是非负定(半正定)的。
大多数情况是正定的。
若的协差阵存在,且每个分量的方差大于零,则称随机向量的相关阵为,其中
(2.6)
为与的相关系数。
在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用各种统计分析之前,常需要将每个指标“标准化”,即进行如下变换,(2.7)
那么由(2.7)构成的随机向量。
令,,有:
那么,标准化后的随机向量均值和协差阵分别为
即标准化数据的协差阵正好是原指标的相关阵。
第三节多元正态分布
一、多元正态分布的定义
我们先来回顾一元正态分布的密度函数,即为
上式可以改写为(2.8)
由于(2.8)式中的,均为一维的数字,可以用代表的转置。
根据上面的表述形式,我们可以将其推广,给出多元正态分布的定义。
定义2.8若维随机向量的密度函数为:
(2.9)
其中,是维随机向量,是阶正定阵,则称服从元正态分布,也称为维正态随机向量,简记为,显然当时,即为一元正态分布密度函数。
可以证明为的均值(向量),为的协差阵。
这里我们应该提及的是,当时,不存在,也就不存在通常意义下的密度函数,然而可以形式的给出一个表达式,是的有些问题可以利用这一形式对及的情况给出一个统一的处理。
当时,设服从二元正态分布,则
,
这里,分别是与的方差,是与的相关系数。
即有
故与的密度函数为
对于,那么与是相互独立的;若,则与趋于正相关;若,则与趋于负相关。
定理2.1设,则有,。
关于这个定理的证明可以参考文献[1],该定理将多元正态分布的参数和赋予了明确的统计意义。
这里我们需要明确的是,多元正态分布的定义不止是一种,更广泛的可以采用特征函数来定义,也可以用一切线性组合均为正态的性质来定义。
二、多元正态分布的性质
在讨论多元统计分析的理论和方法时,经常用到多元正态变量的某些性质,利用这些性质可使得正态分布的处理变得容易一些。
1.若,是对角阵,则相互独立。
2.若,为阶常数阵,为维常数向量,则
即正态随机向量的线性函数还是正态的。
3.若,将,,作如下剖分
则,。
这里需要指出的是:
第一,多元正态分布的任何边缘分布为正态分布,但反之不真。
第二,由于,故表示和不相关,因此可知,对于多元正态变量而言,和的不相关与独立是等价的。
【例2.4】若
其中,
设,,则
(1)
其中
(2)
其中
(3)
记
则
其中
在此我们应该注意到,如果服从元正态分布,则它的每个分量必服从一元正态分布,因此把某个分量的个样品值作成直方图,如果断定不呈正态分布,则就可以断定随机向量也不可能服从元正态分布。
第四节多元正态分布的参数估计
一、多元样本的数字特征
设样本资料可用矩阵表示为
在这里我们给出样本均值向量、样本离差阵、样本协差阵以及样本相关阵的定义。
定义2.9设为来自元总体的样本,其中,。
(1)样本均值向量定义为
其中
(2)样本离差阵定义为
(2.11)
这里,
(3)样本协差阵定义为(2.12)
这里,
(4)样本相关阵定义为(2.13)
其中
在此,我们应该提及的是,样本均值向量和离差阵也可用样本资料阵直接表示如下:
其中
由于
那么,(2.11)式可以表示为:
(2.14)
其中
二、均值向量与协差阵的最大似然估计
多元正态分布有两组参数,均值和协差阵,在许多问题中它们是未知的,需要通过样本来估计。
那么,通过样本来估计总体的参数叫做参数估计,参数估计的原则和方法是很多的,这里用最常见的且具有很多优良性质的最大似然法给出和的估计量。
设来自正态总体容量为的样本,每个样品,,样本资料阵为(2.1)式表示,即
则可由最大似然法求出和的估计量,即有,(2.15)
实际上,最大似然法求估计量可以这样得到。
针对来自正态总体容量为的样本,构造似然函数,即
(2.16)
为了求出使(2.16)式取极值的和的值,将(2.16)两边取对数,即
(2.17)
因为对数函数是一个严格单调增函数,所以可以通过对的极大值而得到和的估计量。
这里我们要注意到,根据矩阵代数理论,对于实对称矩阵,有,,。
那么,针对对数似然函数(2.17)分别对和求偏导数,则有
(2.18)由(2.18)式可以得到极大似然估计量分别为
由此可见,多元正态总体的均值向量的极大似然估计量就是样本均值向量,其协差阵的极大似然估计就是样本协差阵。
和的估计量有如下基本性质:
1.,即是的无偏估计;
,即不是的无偏估计,而,即是的无偏估计;
2.,分别是,的有效估计;
3.,(或)分别是,的一致估计(相合估计)。
样本均值向量和样本离差阵在多元统计推断中具有十分重要的作用,并有如下结论:
定理2.2设和分别是正态总体的样本均值向量和离差阵,则
1.;
2.离差阵可以写为其中,独立同分布于;
3.和相互独立;
4.为正定阵的充要条件是。
三、Wishart分布
在实际应用中,常采用和来估计和,前面已指出,均值向量的分布仍为正态分布,而离差阵的分布又是什么呢?
为此给出维希特(Wishart)分布,并指出它是一元分布的推广,也是构成其它重要分布的基础。
Wishart分布是Wishart在1928年推导出来的,而该分布的名称也即由此得来。
定义2.10设,且相互独立,则由组成的随机矩阵:
(2.19)的分布称为非中心Wishart分布,记为。
其中,称为非中心参数;当时称为中心Wishart分布,记为,当,,有密度存在,其表达式为:
(2.20)
显然,当,时,就是的分布密度,此时(2.19)式为,有。
因此,Wishart分布是分布在维正态情况下的推广。
下面给出Wishart分布的基本性质:
1.若,且相互独立,则样本离差阵
,其中。
2.若,,且相互独立,则。
3.若,为非奇异阵,则。
这里我们有必要说明一下什么是随机矩阵的分布。
随机矩阵的分布有不同的定义,此处是利用已知向量分布的定义给出矩阵分布的定义。
这里我们有必要说明一下什么是随机矩阵的分布。
随机矩阵的分布有不同的定义,此处是利用已知向量分布的定义给出矩阵分布的定义。
设随机矩阵
将该矩阵的列向量(或行向量)一个接一个地连接起来,组成一个长的向量,即拉直向量:
的分布定义为该阵的分布。
若为对称阵时,由于,,故只取其下三角部分组成的拉直向量,即。
第三章多元正态分布均值向量和协差阵的检验
第一节引言
在单一变量的统计分析中,已经给出了正态总体N(,2)的均值和方差2的各种检验。
对于多变量的正态总体Np(,∑),各种实际问题同样要求对和∑进行统计推断。
例如,我们要考察全国各省、自治区和直辖市的社会经济发展状况,与全国平均水平相比较有无显著性差异等,就涉及到多元正态总体均值向量的检验问题等。
本章类似单一变量统计分析中的各种均值和方差的检验,相应地给出多元统计分析中的各种均值向量和协差阵的检验。
其基本思想和步骤均可归纳为:
第一,提出待检验的假设H0和H1;
第二,给出检验的统计量及其服从的分布;
第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;
第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
在检验的过程中,关键在于对不同的检验给出不同的统计量,而有关统计量的给出大多用似然比方法得到。
由于多变量问题的复杂性,本章只侧重于解释选取统计量的合理性,而不给出推导过程,最后给出几个实例。
为了更好的说明检验过程中统计量的分布,本章还要介绍HotellingT2分布和Wilks分布的定义。
第二节均值向量的检验
一、单一变量检验的回顾及HotellingT2分布
为了对多元正态总体均值向量作检验,首先需要给出HotellingT2分布的定义。
在单一变量的检验问题中,设来自总体的样本,我们要检验假设
当已知时,用统计量(3.1)
其中,为样本均值。
当假设成立时,统计量服从正态分布,从而否定域为,为的上分位点。
当未知时,用(3.2)
作为的估计量,用统计量:
(3.3)
来做检验。
当假设成立时,统计量服从自由度为的分布,从而否定域为,为自由度为的分布上的分位点。
这里我们应该注意到,(3.3)式可以表示为
(3.4)
对于多元变量而言,可以将分布推广为下面将要介绍的Hotelling分布。
定义3.1设,且与相互独立,,则称统计量的分布为非中心HotellingT2分布,记为。
当时,称服从(中心)Hotelling分布。
记为。
由于这一统计量的分布首先由HaroldHotelling提出来的,故称为Hotelling分布,值得指出的是,我国著名统计学家许宝禄先生在1938年用不同方法也导出分布的密度函数,因表达式很复杂,故略去。
在单一变量统计分析中,若统计量分布,则分布,即把分布的统计量转化为统计量来处理,在多元统计分析中统计量也具有类似的性质。
定理3.1若,且与相互独立,令,则
(3.5)
在我们后面所介绍的检验问题中,经常会用到这一性质。
设是来自维正态总体的样本,且,。
(一)协差阵已知时均值向量的检验
(为已知向量)
假设成立,检验统计量为
(3.6)
给定检验水平,查分布表使,可确定出临界值,再用样本值计算出,若,则否定,否则接受。
这里要对统计量的选取做一些解释,为什么该统计量服从分布。
根据二次型分布定理知道,若,则。
显然,
其中,,因此,
(二)协差阵未知时均值向量的检验
(为已知向量)
假设成立,检验统计量为
(3.7)
其中,
给定检验水平,查分布表,使,可确定出临界值,再用样本值计算出,若,则否定,否则接受。
这里需要解释的是,当未知时,自然想到要用样本协差阵取代替,因是的无偏估计量,而样本离差阵
由定义3.1知
再根据Hotelling分布的性质,所以
在处理实际问题时,单一变量的检验和多变量检验可以联合使用,多元的检验具有概括和全面考察的特点,而一元的检验容易发现各变量之间的关系和差异,能给人们提供更多的统计分析信息。
三、两个正态总体均值向量的检验
(一)当协差阵相等时,两个正态总体均值向量的检验
设,,为来自维正态总体的容量为的样本;,,为来自维正态总体的容量为的样本。
两组样本相互独立,,且,。
1.针对有共同已知协差阵的情形
对假设进行检验。
对此问题,假设成立时,所构造的检验统计量为
(3.8)
给出检验水平,查分布表使,可确定出临界值,再用样本值计算出,若,则否定,否则接受。
这里,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 演讲 技巧 应用 多元 统计分析 讲稿 建平