主成分分析聚类分析比较Word格式.docx
- 文档编号:3445202
- 上传时间:2023-05-01
- 格式:DOCX
- 页数:15
- 大小:160.81KB
主成分分析聚类分析比较Word格式.docx
《主成分分析聚类分析比较Word格式.docx》由会员分享,可在线阅读,更多相关《主成分分析聚类分析比较Word格式.docx(15页珍藏版)》请在冰点文库上搜索。
对向量聚类后,我们对数据的处理难度也自然降低,所以从某种意义上说,聚类分析也起到了降维的作用。
(二)不同之处
主成分分析是研究如何通过少数几个主成分来解释多变量的方差一协方差结构的分析方法,也就是求出少数几个主成分(变量),使它们尽可能多地保留原始变量的信息,且彼此不相关。
它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量(两两相关系数为0,或样本向量彼此相互垂直的随机变量),在这种变换中,保持变量的总方差(方差之和)不变,同时具有最大方差,称为第一主成分;
具有次大方差,称为第二主成分。
依次类推。
若共有p个变量,实际应用中一般不是找p个主成分,而是找出m(m<
p)个主成分就够了,只要这m个主成分能反映原来所有变量的绝大部分的方差。
主成分分析可以作为因子分析的一种方法出现。
因子分析是寻找潜在的起支配作用的因子模型的方法。
因子分析是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,但不同的组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。
对于所研究的问题就可试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
通过因子分析得来的新变量是对每个原始变量进行内部剖析。
因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。
具体地说,就是要找出某个问题中可直接测量的具有一定相关性的诸指标,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子的状态。
因子分析只能解释部分变异,主成分分析能解释所有变异。
聚类分析算法是给定m维空间R中的n个向量,把每个向量归属到k个聚类中的某一个,使得每一个向量与其聚类中心的距离最小。
聚类可以理解为:
类内的相关性尽量大,类间相关性尽量小。
聚类问题作为一种无指导的学习问题,目的在于通过把原来的对象集合分成相似的组或簇,来获得某种内在的数据规律。
从三类分析的基本思想可以看出,聚类分析中并没于产生新变量,但是主成分分析和因子分析都产生了新变量。
三、数据标准化的比较
主成分分析中为了消除量纲和数量级,通常需要将原始数据进行标准化,将其转化为均值为0方差为1的无量纲数据。
而因子分析在这方面要求不是太高,因为在因子分析中可以通过主因子法、加权最小二乘法、不加权最小二乘法、重心法等很多解法来求因子变量,
并且因子变量是每一个变量的内部影响变量,它的求解与原始变量是否同量纲关系并不太大,当然在采用主成分法求因子变量时,仍需标准化。
不过在实际应用的过程中,为了尽量避免量纲或数量级的影响,建议在使用因子分析前还是要进行数据标准化。
在构造因子变量时采用的是主成分分析方法,
主要将指标值先进行标准化处理得到协方差矩阵,即相关矩阵和对应的特征值与特征向量,然后构造综合评价函数进行评价。
聚类分析中如果参与聚类的变量的量纲不同会导致错误的聚类结果。
因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。
不同方法进行标准化,会导致不同的聚类结果要注意变量的分布。
如果是正态分布应该采用z分数法。
四、应用中的优缺点比较
(一)主成分分析
1、优点
首先它利用降维技术用少数几个综合变量来代替原始多个变量,这些综合变量集中了原始变量的大部分信息。
其次它通过计算综合主成分函数得分,对客观经济现象进行科学评价。
再次它在应用上侧重于信息贡献影响力综合评价。
2、缺点
当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确。
命名清晰性低。
(二)聚类分析
聚类分析模型的优点就是直观,结论形式简明。
在样本量较大时,要获得聚类结论有一定困难。
由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,
而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。
五.案例分析:
下表是关于全国31个省市的8项经济指标,以此为例,进行主成分分析。
省份
国内生产
居民消费
固定资产
职工工资
货物周转
消费价格
商品零售
工业产值
北京
2505
8144
天津
2720
6501
河北
1258
4839
山西
1250
4721
内蒙
1387
4134
辽宁
2397
4911
114
吉林
1872
4430
黑龙江
2334
4145
上海
5343
9279
113
江苏
1926
5943
浙江
2249
6619
安徽
1254
474
4609
福建
2320
5857
江西
1182
4211
山东
1527
5145
河南
1034
4344
湖北
4685
849
120
湖南
1408
4797
119
广东
2699
8250
广西
1314
5105
556
海南
1814
5340
四川
3534
1261
4645
117
贵州
942
4475
云南
334
5149
西藏
1110
7382
陕西
1208
4396
甘肃
1007
5493
507
青海
1445
5753
118
宁夏
1355
5079
新疆
1469
5348
339
经过输入数据,设置各项,Spss最终输出结果如下:
描述统计量
均值
标准差
分析N
30
相关矩阵a
相关
.267
.951
.191
.617
.426
.718
.400
.431
.022
.763
.874
.363
.792
.104
.659
a.行列式=.000
公因子方差
初始
提取
.945
.800
.902
.875
.857
.957
.929
.903
提取方法:
主成份分析。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的%
累积%
1
2
3
4
.402
5
.213
6
.138
7
.065
.818
8
.015
.183
成份矩阵a
.885
.384
.121
.607
.271
.912
.161
.212
.466
.368
.486
.738
.252
.797
.594
.438
.823
.427
.211
提取方法:
主成份。
a.已提取了3个成份。
从“解释的总方差”一表中可以得出相关系数矩阵的特征值为
λ1=,λ2=,λ3=,λ4=,5=,λ6=,
λ7=,λ8=
前三个成分的特征值都大于1,并且累计贡献值达到了%,所以选取了前三个因素作为主成分。
将“成分矩阵”表中没一列值分别除以特征值的开方,就得出了每一个特征值对应的特征向量,由此可以得出第一,第二,第三主成分表达式(令各因素为X1,X2……X8)
F1=*X1+*X2+*X3+*X4+***X7+*X8
F2=**X2+**X4+*X5+*X6+*X7+*X8
F3=*X1+*X2+*X3+**X5+*X6+*X7+*X8
根据三个主成分表达式,通过SPSS的转换功能,就可以得出成分结果:
F1
F2
F3
9721
4506
综合上述可知,各省份的8个经济指标中国内资产,居民消费,固定工资可以作为衡量经济的主要成分。
聚类分析根据分类对象的不同,可分为样本聚类和变量聚类。
样本聚类又称Q型聚类,对样本进行分类。
变量聚类又称R型聚类,对变量进行分类。
Q型聚类实例分析
例:
一组有关12盎司啤酒成分和价格的数据,变量包括beername(啤酒名称)、
calorie(热量卡路里)、
sodium(纳含量)、
alcohol(酒精含量)、
cost(价格)。
要求根据12盎司啤酒的各成分含量及12盎司啤酒的价格对20种啤酒进行分类。
分析(Analysis)→分类(Classify)→分层聚类(HierarchicalCluster)
Q型聚类选个案,R型聚类选变量。
相似性矩阵:
表格形式给出任意两个样本的相关指数。
方法:
聚类方法:
组间聚类,组内聚类,最近邻元素法,最远邻元素法
度量标准:
平方Euclidean距离,Euclidean距离,Pearson相关性。
标准化:
如果参与聚类的变量的量纲不同会导致错误的聚类结果。
因此在聚类过程进行之前必须对变量进行标准化。
常用的是Z分数法和全距从0-1。
这是常用的几种方法,具体问题根据具体结果选择方法。
R型聚类实例分析
有10个测检项目,分别用x1-x10表示。
有50个学生参加测试,通过50个学生的数据,把这10个变量聚成两类。
并且找出每类中的代表元素。
•x3,x8,x9,x10是一类
•x1,x2,x4,x5,x6,x7是一类。
x8的相关指数最高,所以x8代表可第二类元素。
参考文献:
[1]
李云晋.非标准化数据的聚类分析方法[J].昆明冶金高等专科学校学报,2005,
(1).
[2]
王芳.主成分分析与因子分析的异同比较及应用[J].统计教育,2003,(5).
[3]
李蓉,李宇.基与主成分分析与聚类分析方法的我国西部区域划分问题的研究[J].科技广场,2006,(5).
[4]
王宏健,易柱新.主成分方法用于聚类分析[J].经济数学,1996,
(1).
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 成分 分析 聚类分析 比较