数据分析实验四.docx
- 文档编号:17353823
- 上传时间:2023-07-24
- 格式:DOCX
- 页数:18
- 大小:234.35KB
数据分析实验四.docx
《数据分析实验四.docx》由会员分享,可在线阅读,更多相关《数据分析实验四.docx(18页珍藏版)》请在冰点文库上搜索。
数据分析实验四
实验课程:
数据分析
专业:
信息与计算科学
班级:
13080241
学号:
1308024121
姓名:
徐可
中北大学理学院
实验四 1991年全国各省、区、市城镇居民
【实验目的】通过使用SAS软件对实验数据进行判别分析和聚类分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。
【实验内容】1991年全国各省、区、市城镇居民月平均收入情况见下表,变量含义如下:
X1-人均生活费收入(元/人);X2-人均全民所有制职工工资(元/人);X3-人均来源于全民标准工资(元/人);X4-人均集体所有制工资(元/人);X5-人均集体职工标准工资(元/人);X6-人均各种奖金及超额工资(元/人);X7-人均各种津贴(元/人);X8-职工人均从工作单位得到的其他收入(元/人);X9-个体劳动者收入(元/人)。
省(区\市)名
类型
x1
x2
x3
x4
x5
x6
x7
x8
x9
北京
1
170.03
110.2
59.76
8.38
4.49
26.8
16.44
11.9
0.41
天津
1
141.55
82.58
50.98
13.4
9.33
21.3
12.36
9.21
1.05
河北
1
119.4
83.33
53.39
11
7.52
17.3
11.79
12
0.7
上海
1
194.53
107.8
60.24
15.6
8.88
31
21.01
11.8
0.16
山东
1
130.46
86.21
52.3
15.9
10.5
20.61
12.14
9.61
0.47
湖北
1
119.29
85.41
53.02
13.1
8.44
13.87
16.47
8.38
0.51
广西
1
134.46
98.61
48.18
8.9
4.34
21.49
26.12
13.6
4.56
海南
1
143.79
99.97
45.6
6.3
1.56
18.67
29.49
11.8
3.82
四川
1
128.05
74.96
50.13
13.9
9.62
16.14
10.18
14.5
1021
云南
1
127.41
93.54
50.57
10.5
5.87
19.41
21.2
12.6
0.9
新疆
1
122.96
101.4
69.7
6.3
3.86
11.3
18.96
5.62
4.62
山西
2
102.49
71.72
47.72
9.42
6.96
13.12
7.9
6.66
0.61
内蒙古
2
106.14
76.27
46.19
9.65
6.27
9.655
20.1
6.97
0.96
吉林
2
104.93
72.99
44.6
13.7
9.01
9.435
20.61
6.65
1.68
黑龙江
2
103.34
62.99
42.95
11.1
7.41
8.342
10.19
6.45
2.68
江西
2
98.089
69.45
43.04
11.4
7.95
10.59
16.5
7.69
1.08
河南
2
104.12
72.23
47.31
9.48
6.43
13.14
10.43
8.3
1.11
贵州
2
108.49
80.79
47.52
6.06
3.42
13.69
16.53
8.37
2.85
陕西
2
113.99
75.6
50.88
5.21
3.86
12.94
9.492
6.77
1.27
甘肃
2
114.06
84.31
52.78
7.81
5.44
10.82
16.43
3.79
1.19
青海
2
108.8
80.41
50.45
7.27
4.07
8.371
18.98
5.95
0.83
宁夏
2
115.96
88.21
51.85
8.81
5.63
13.95
22.65
4.75
0.97
辽宁
3
128.46
68.91
43.41
22.4
15.3
13.88
12.42
9.01
1.41
江苏
3
135.24
73.18
44.54
23.9
15.2
22.38
9.661
13.9
1.19
浙江
3
162.53
80.11
45.99
24.3
13.9
29.54
10.9
13
3.47
安徽
3
111.77
71.07
43.64
19.4
12.5
16.68
9.698
7.02
0.63
福建
3
139.09
79.09
44.19
18.5
10.5
20.23
16.47
7.67
3.08
湖南
3
124
84.66
44.05
13.5
7.47
19.11
20.49
10.3
1.76
广东
待判
211.3
114
41.44
33.2
11.2
48.72
30.77
14.9
11.1
西藏
待判
175.93
163.8
57.89
4.22
3.37
17.81
82.32
15.7
0
1、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。
2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。
2、1)用最短距离法、最长距离法与类平均法聚类,画出谱系图,并写出分3类的结果;
2)快速聚类法聚类,并写出分3类的结果。
【实验所使用的仪器设备与软件平台】
计算机SAS软件
【实验方法与步骤】(阐述实验的原理、方案、方法及完成实验的具体步骤等,附上自己编写的程序)
将上述题中全部数据全部放入Excel中再导入为’shuju’数据集,再将最后两行待判的广东、西藏两省放入Excel中再导入为’daipan’数据集
其中,四川最后一个数据有错。
程序如下:
procdiscrimdata=shuju
testdata=daipanmethod=normal
listcrosslisttestlist;
classleixing;
varx1-x9;
priorsproportional;
run;
procclusterdata=shujumethod=sinouttree=y1;run;
proctreedata=y1nclusters=3out=z1;
run;
procprintdata=z1;
run;
procclusterdata=shujumethod=comouttree=y2;
run;
proctreedata=y2nclusters=3out=z2;
run;
procprintdata=z2;
run;
procclusterdata=shujumethod=aveouttree=y3;
run;
proctreedata=y3nclusters=3out=z3;
run;
procprintdata=z3;
run;
procfastclusdata=shujuout=a1
maxc=3cluster=cdistancelist;
procplot;
plotx2*x1=c;
run;
【实验结果】
1、1)
回代法:
从图中可以看出将广东判入第三类,将西藏判入第一类。
由图可知:
算得的线性判别函数为
用回代法,所有样品回代都正确,故误判率的回代估计为0
交叉确认法:
从图中可以看出将广东判入第三类,将西藏判入第一类
2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。
待判样品广东,西藏由Bayes判别得:
广东被判入了第三类。
西藏被判入了第一类。
由图可知:
先验概率按比例分配为
有图可得:
线性判别函数为
回代法验证结果:
交叉确认法验证结果:
2、1)
最短距离法:
谱系图:
第一类结果为:
河北、山东、广西、海南、云南、新疆、江苏、浙江、上海、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、陕西、甘肃、青海、宁夏、辽宁、福建、湖南、河南、贵州、安徽
第二类结果为:
广东
第三类结果为:
西藏
最长距离法:
谱系图:
第一类结果为:
河北、山东、广西、海南、云南、新疆、江苏、浙江、上海、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、陕西、甘肃、青海、宁夏、辽宁、
第二类结果为:
河南、贵州、广东、安徽
第三类结果为:
西藏、福建、湖南
类平均法聚类:
谱系图:
第一类结果为:
河北、山东、广西、海南、云南、新疆、江苏、浙江、上海、广东、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、河南、贵州、陕西、甘肃、青海、宁夏、辽宁、安徽
第二类结果为:
福建、湖南
第三类结果为:
西藏
2)快速聚类法聚类,并写出分3类的结果。
初始聚点:
对对应城市广东、新疆、黑龙江的分类结果:
第一类结果为:
天津、山东、广西、海南、云南、新疆、江苏、浙江、福建、湖南
第二类结果为:
北京、上海、广东、西藏
第三类结果为:
河北、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、河南、贵州、陕西、甘肃、青海、宁夏、辽宁、安徽
分类结果散点图为:
【实验原理】
1.Bayes判别即寻找一个划分
,使平均误判损失达到最小。
2.为了弥补谱系聚类法的不足产生的快速聚类法是先将样品组类的分一下类,然后再按某种原则进行修正,直至分类比较合理为止。
【结果分析与讨论】
通过本次实验,得出以下结论:
1.用谱系聚类法的最短距离法、最长距离法与类平均法聚类算出的3类是不相同的因为三种计算方法的公式不相同。
2.由聚类分析法得出的第一类为人均收入最高的,第二类次之,第三类人均收入最低
3.Bayes判别将带判的样品判别判入哪一类,还可以看出误判引起的损失。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 实验