北航应用数理统计大作业聚类分析Word文件下载.docx
- 文档编号:4395873
- 上传时间:2023-05-03
- 格式:DOCX
- 页数:15
- 大小:99.73KB
北航应用数理统计大作业聚类分析Word文件下载.docx
《北航应用数理统计大作业聚类分析Word文件下载.docx》由会员分享,可在线阅读,更多相关《北航应用数理统计大作业聚类分析Word文件下载.docx(15页珍藏版)》请在冰点文库上搜索。
然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);
不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差作为标准测度函数。
一般而言,k个聚类具有以下特点:
各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
2.2,判别分析
判别分析是市场研究的重要分析技术,也是多变量分析技术。
它可以就一定数量的个体的一个分类变量和相应的其它多元变量的已知信息,确定分类变量与其它多元变量之间的数量关系,建立判别函数,并利用判别函数构建Biplot二元判别图(概念图)。
同时,利用这一数量关系对其他已知多元变量的信息、但未知分组的子类型的个体进行判别分组。
判别分析属于监督类分析方法,例如:
市场细分研究中,常涉及判别个体所属类型的问题,也常涉及不同品牌在一组产品属性之间的消费者偏好和认知概念,判别分析可以很好地对这种差异进行鉴别。
并在低维度空间表现这种差异。
判别分析主要有距离判别、贝叶斯(Bayes)判别、费舍尔(Fisher)判别等几种常用方法。
距离判别的基本原理是:
首先对样本到总体G之间的距离进行合理规定,然后依照“就近”原则判定样本的归属,常用马氏距离(Mahalanobis)规定为:
式中
为p元总体G的协方差阵,x是取自G的样品,则该式即为样品x到总体G的马氏距离。
贝叶斯判别既考虑了先验分布产生的影响,也考虑到误判损失产生的影响,是衡量一个判别优劣的比较合理的准则。
费舍尔判别的基本思想与主成分分析十分相似,当总体是高维向量时,先把其综合成一个一维变量,然后在对一维变量进行距离判别,费舍尔判别实际上是一种降维处理,降维压缩后,样品y到各个总体
的距离可以用欧式距离度量,即:
由此导出Fisher判别规则为:
,则
本文及使用Fisher判别建立线性判别函数进行距离判别。
3,模型建立
3.1设置变量
本文综合考虑了衡量人民消费水平因素,选取各地区居民消费水平,消费水平包括城镇居民消费水平和农村居民消费水平,综合考虑了居民人均消费作为类别分析的主要经济指标:
X1:
居民消费水平(元)
X2:
城镇居民消费水平(元)
X3:
农村居民消费水平(元)
X4:
居民人均消费(元)
从区域发展角度从上面5个经济指标将城市经济发展水平划分为三大类:
G1:
高消费地区
G2:
中等消费地区
G3:
低消费地区
3.2数据收集和整理
本文所有数据来源于《中国统计年鉴(2014)》,选取2014年度31个省份主要居民消费水平做模型建立及分析。
其中前31个省份相关消费指标水平作为初始样本用于划分类别,建立类别总体G;
再利用判别函数进行判别分析。
所有相关数据经过量纲统一规则化处理见表1所示。
表1:
各省份居民消费水平
省份
居民消费水平
农村居民消费
城镇居民消费
居民人均消费
北京市
33337
17663
35836
31102.89
天津市
26261
14954
28779
22342.98
河北省
11557
6460
17198
11931.54
山西省
12078
7476
16341
10863.83
内蒙古自治区
17168
8218
23590
16258.12
辽宁省
20156
10417
25161
16067.98
吉林省
13676
7773
18714
13025.97
黑龙江省
12978
7478
17102
12768.76
上海市
39223
20221
41464
33064.76
江苏省
23585
14571
28753
19163.56
浙江省
24771
15458
30101
22551.97
安徽省
11618
6114
17779
11726.99
福建省
17115
10147
21725
17644.47
江西省
11910
7429
16728
11088.89
山东省
9224
23358
13328.9
河南省
11782
6438
18833
11000.44
湖北省
13912
7755
19156
12928.31
湖南省
12920
7005
19508
13288.73
广东省
23739
9914
30440
19205.5
广西壮族自治区
11710
5795
19185
10274.31
海南省
11712
7072
15877
12470.59
重庆市
15270
6538
21681
13810.62
四川省
12485
8074
17899
12368.4
贵州省
9541
5383
16581
9303.35
云南省
11224
6003
19089
9869.54
西藏自治区
6275
3874
14001
7316.95
陕西省
13206
6620
19620
12203.59
甘肃省
9616
5245
16327
9874.57
青海省
12070
6954
17617
12604.8
宁夏回族自治区
13537
7062
19671
12484.52
新疆维吾尔自治区
11401
5942
18285
11903.71
4,数据结果及分析
4.1聚类分析
4.1.1聚类分析过程
采用统计软件SPSS可以快速方便的将样本分类,“K-均值聚类”将样本分为设定好的三类,分类结果如下:
(1)K-均值聚类初始聚类中心
表格2:
初始聚类中心
聚类
1
2
3
33064.7600
22342.9800
7316.9500
(2)样本聚类
表格3:
聚类成员
案例号
距离
北京市
4379.260
天津市
7635.587
河北省
929.734
4
山西省
1983.267
5
内蒙古自治区
6352.826
6
辽宁省
3055.409
7
吉林省
2666.896
8
黑龙江省
2010.885
9
上海市
10
江苏省
4508.228
11
浙江省
7652.634
12
安徽省
618.766
13
福建省
6473.341
14
江西省
1567.065
15
山东省
7767.508
16
河南省
1066.383
17
湖北省
2922.023
18
湖南省
2544.860
19
广东省
5077.435
20
广西壮族自治区
1969.712
21
海南省
2327.806
22
重庆市
5477.295
23
四川省
1769.123
24
贵州省
3773.239
25
云南省
2242.845
26
西藏自治区
8554.757
27
陕西省
2186.049
28
甘肃省
3568.409
29
青海省
1151.200
30
宁夏回族自治区
2560.345
31
新疆维吾尔自治区
956.540
(3)最终聚类中心
表格4:
最终聚类中心
36280
21190
11928
18942
11613
6595
38650
26488
17962
32083.8250
18320.4350
11576.5910
表格5:
最终聚类中心间的距离
24874.663
39925.644
15138.312
表格6:
每个聚类中的案例数
2.000
8.000
21.000
有效
31.000
缺失
.000
(4)聚类方差分析
表格7:
聚类方差分析
误差
F
Sig.
均方
df
6.930E8
6814286.540
101.697
1.854E8
2927580.953
63.319
5.251E8
5546020.183
94.685
4.570E8
4333185.909
105.467
F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。
观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。
4.1.2聚类结果分析
从上述聚类分析过程可知,样本完全有效,32个个体被分成三大类:
G1(高消费地区):
北京,上海。
G2(中等消费地区):
天津市,内蒙古自治区,辽宁省,江苏省,浙江省,福建省,山东省,广东省。
G3(低消费地区):
河北省,山西省,吉林省,黑龙江省,安徽省,江西省,河南省,湖北省,湖南省,广西壮族自治区,海南省,重庆市,四川省,贵州省,云南省,西藏自治区,陕西省,甘肃省,青海省。
宁夏回族自治区,新疆维吾尔自治区。
从地区分类结果可知,北上作为国际化城市发展代表,其消费水平远超其他沿海城市及内陆城市;
沿海开放城市以及内陆主要枢纽城市的消费水平高于其他城市;
中部地区级西部城市发展水平受限于地理、资源和资本等因素,经济发展表现不强劲,消费水平也比较低。
从最后的方差分析中可知,分类检验水平显著,分类结果值得借鉴。
4.2判别分析
4.2.1判别结果及分析
一般来讲,利用判别分析首先要明确变量测量尺度及变量的类型和关系;
因变量(dependentvariable):
分组变量——定性数据(个体、产品/品牌、特征,定类变量)。
自变量(independentvariable):
判别变量——定量数据(属性的评价得分,数量型变量)。
采用IBM
SPSS
Statistics
19作为统计工具,将数据输入SPSS。
依次选择分
析→分类→判别进入设置对话框。
选择上一步聚类分析所得的结果变量作为分组变量。
由于已在聚类分析中将城市经济类型分为四类,因此其取值范围为1~
3。
原始数据作为自变量以对其进行分类判别。
自变量输入方式为步进法。
判别方法选用最小F值,进入值设置为3.84,删除值设置为2.71。
在“分类”中设置先验概率为所有组相等。
点击“确认”进入统计计算。
(1)判别图
图1典则判别函数
从图中很明显,看到三个组中心也就是人民消费水平,以及围绕着组中心的样本,说明直观上分组判别式完全可以接受的。
(2)典型判别式函数摘要
表格8:
特征值
函数
方差的%
累积%
正则相关性
8.393a
98.0
.945
.169a
2.0
100.0
.381
a.分析中使用了前2个典型判别式函数。
表格9:
Wilks的Lambda
函数检验
卡方
1到2
.091
65.904
.855
4.304
.038
表格10:
标准化的典型判别式函数系数
.455
1.331
.626
-1.260
表格11:
结构矩阵
居民消费水平a
.957*
.075
.946*
-.323
.895*
.445
农村居民消费a
.774*
-.232
判别变量和标准化典型判别式函数之间的汇聚组间相关性
按函数内相关性的绝对大小排序的变量。
a.该变量不在分析中使用。
*.每个变量和任意判别式函数间最大的绝对相关性
从表中我们看到,因为分组变量是三类,所以我们得到两个判别函数,其中第一判别函数解释了数据的98%,第二判别函数解释了2%;
两个判别函数解释了100%;
当然,两个判别函数直接具有显著的差异和判别力。
(3)分类统计量
表格12:
组的先验概率
案例的类别号
先验
用于分析的案例
未加权的
已加权的
.333
合计
1.000
表格13:
分类函数系数
.005
.004
.003
.001
(常量)
-150.594
-65.139
-30.222
Fisher的线性判别式函数
Fisher线性判别函数,我们主要用来构建判别方程,理论上说:
如果我们知道某个地区的城镇居民消费水平和居民消费水平,我们就可以估计出该地区应该是属于哪种类型的。
5,结论
通过聚类以及判别分析可知,我国居民消费水平的的高低和地理因素有很大关联,城市的经济发展水平呈现东南沿海高,中西部内陆低的态势,而经济发展水平极大地制约着居民消费水平。
同时地区之间经济发展差距悬殊,事实上是制约消费水平发展的另一个重要因素。
长期以往,显然不利于经济的平衡发展。
此外,北京作为我国首都,毋庸置疑具有天然的发展优势,其政治中心,交通中心,文化中心的地位吸引了国内外大量资金,快节奏的都市生活和日新月异的经济发展极大的推动了北京的消费水平提高;
上海作为中国的经济金融中心,加之其周边江浙地带发达的工业基础,都为上海的经济发展增加了强劲的力量,从而使它的消费水平也提高了一个档次;
判别图里清晰的表明北上的发展远远超过二三类型的城市发展水平。
沿海主要城市以及内陆枢纽城市的发展得益于丰富的资源以及便利交通带来的大量投资,或者传统的工业基础,这些因素都使得这一类的城市发展迅速,势头强劲,所以消费水平较高。
其余中西部城市的发展各有其优劣,但总体上西部城市受国家西部大开发政策影响,变现出新兴的发展势头,所以消费水平也不算太低。
判别图分析可见二三类型经济发展水平相差不大。
由此,所建立模型直观上符合我国部分主要城市经济发展水平类型,最后的四个城市判别再次说明了模型的有效性。
参考文献
[1]孙海燕,周梦,李卫国,冯伟.应用数理统计[M].北京:
北京航空航天大学数学系,2014.
[2]张建同,孙昌言.以Excel和SPSS为工具的管理统计[M].北京:
清华大学出版社,2002.
[3]国家统计局.2014年中国统计年鉴[M].中国统计出版社,2014
[4]宋志刚、谢蕾蕾、何旭洪.SPSS16实用教程[M].北京:
人民邮电出版社,2008
致谢
本论文是在我的数理统计任课教师孙海燕教授的悉心指导下完成的,从论文的选题到研究方向的把握,无不凝聚着老师辛勤的付出和汗水。
孙老师学识渊博,才思敏捷,严谨的教学态度,无不让我等钦佩。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 北航 应用 数理统计 作业 聚类分析