多元统计课程设计张灿.docx
- 文档编号:13805966
- 上传时间:2023-06-17
- 格式:DOCX
- 页数:27
- 大小:233.15KB
多元统计课程设计张灿.docx
《多元统计课程设计张灿.docx》由会员分享,可在线阅读,更多相关《多元统计课程设计张灿.docx(27页珍藏版)》请在冰点文库上搜索。
多元统计课程设计张灿
多元统计分析
课程设计
题目:
结合聚类分析及回归分
析的方法和应用
学院:
理学院
班级:
数学11-1班
学生姓名:
abcc
学生学号:
zbc
指导教师:
abc
2014年6月5日
课程设计任务书
姓名
abc
班级
数学11-1班
学号
abc
设计题目
结合聚类分析及回归分析的方法和应用
理论要点
通过结合回归分析及聚类分析对实际问题进行分析,利用系统聚类法即最短距离法,最长距离法,重心法,离差平方和法等,以统一形式的递推公式:
对距离的不同定义,将各指标量之间的样品以不同的距离分开进行聚类,根据想要划分的类数,即可达到分类的要求。
设计目标
以对聚类分析及回归分析的理论要点的学习,将实际问题转化为应用多元统计分析的具体问题,运用聚类分析的知识,熟练使用聚类分析软件命令,及运用聚类分析的方法解决实际问题,实现对问题的分类和解读,达到分类的真正目标。
研究方法步骤
1深入的学习聚类分析的相关知识,掌握各种距离计算的方法。
2借阅相关书籍,了解多元统计的相关解决方法。
3根据样品变量估计分类的数量,及相应的分类结果。
4运用Eviews,spss软件,解决实际问题,进行分类。
预期结果
运用Eviews,spss软件实现实际问题的分类过程,得到相应的图表,使问题更加简洁明了,易于分析并提出解决办法。
计划与进步的安排
课程安排一周,分四次完成:
第一次(1-2天):
上网搜查有关的资料,并开始考虑设计的方法:
第二次(3-4天):
写论文的前言、摘要、以及理论依据部分:
第三次(4-6天):
写论文的问题描述、问题分析以及求解计算部分:
第四次(7天):
写论文的结论部分以及最后的审核和排版、打印等。
摘要
本文通过回归分析、聚类分析等多种分析手段,以系统聚类法有最短距离法、最长距离法、重心法、类平均法、中间距离法、可变类平均法、可变法、李差平方和法等,通过收入支出的时间序列模型的分析给出了从2000到2009年的农村收入支出呈现的增长趋势,以及城乡之间的对比;然后利用聚类分析说明了收入支出的地区差异通过给定的分类情况,可将各省粮食产量情况的各项指标综合得到四至七类,在这些分类中,可以充分的体现各指标之间的关系,鲜明形象的体现了聚类分析的优势。
然后利用回归分析建立了黑龙江省农村居民收入与支出之间的模型,试图寻找出农村居民收入的消费分配现状,即单位收入的支出方向问题。
本实验充分掌握和运用多元统计分析的统计方法,能够利用基本的统计软件如Eviews、Spss等软件处理分析数据,并对结果作出合理的解释。
了解近几年来山东省农村居民收入支出的基本状况,其中包括城乡差距问题和居民收入的消费分配问题,进而掌握黑龙江省农村居民的基本生活状况,为我省经济的长远发展提供依据。
关键词:
系统聚类聚类分析回归分析多元统计分析
(一)聚类分析的背景和原理1
(一)收入和支出的概况分析3
(二)收入支出的城乡差异5
(三)收入支出的地区差异6
(一)利用聚类分析分类收入差异6
结合聚类分析及回归分析的方法和应用
一基本理论基础
(一)聚类分析的背景和原理
1,聚类分析的定义
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。
聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法。
所谓的“类”,通俗地说就是相似元素的集合。
2,聚类的方法分类
聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:
系统聚类法、调优法、最优分割法、模糊聚类法、图论聚类法、聚类预报法。
本文中应用的是系统聚类法:
开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度,这一过程一直继续直到所有对象归为一类为止。
并类的过程可用一张谱系聚类图描述。
3,系统聚类法的基本步骤
(1)计算n个样品两两间的距离,得样品间的距离矩阵
。
类与类之间的距离本文应用的是类平均法。
所谓类平均法就是:
两类样品两两之间平方距离的平均作为类之间的距离,即:
采用这种类间距离的聚类方法,称为类平均法。
(2)初始(第一步:
i=1)n个样本各自构成一类,类的个数k=n,第t类
(t=1,2···,n)。
此时类间的距离就是样品间的距离(即
)。
(3)对步骤i得到的距离矩阵
,合并类间距离最小的两类为一新类。
此时类的总个数k减少1类,即k=n-i+1.
(4)计算新类与其他类的距离,得新的距离矩阵
。
若合并后类的总个数k扔大于1,重新步骤(3)和(4);直到类的总个数为1时转到步骤(5)。
(5)画谱系聚类图;
(6)决定总类的个数及各类的成员。
(二)回归分析的背景和原理
1,回归分析的基本原理
回归分析是研究两个或多个变量之间关系的统计分析方法,在实际问题中,因变量y往往不是只与一个变量有关,而是和多个变量
有关,设
(3.1)
其中
是p+1个未知参数,
称为回归常数,
称为回归系数,y为被解释变量(因变量),而
是p个可以精确测量并可控制的一般变量,称为解释变量(自变量),
是随机误差.称
(3.2)
为理论回归方程。
利用最小二乘原理就是求一个参数向量
的估计
,使得回归的残差平方和函数SSE(
)取得最小值。
2,模型的基本假定及检验
为了方便进行模型的参数估计,做如下基本假定:
1)解释变量是确定性变量,不是随机变量.并且要求
,它表明设计矩阵是满秩的.
2)对随机误差项假定
这个假定称为高斯-马尔科夫条件。
3)正态分布的假定为
相互独立,对于多元线性回归的矩阵形式这个条件可以表示为
由此可以得到
,其中
是单位阵。
为了验证是否能做到基本假定,所以需要做回归模型的显著性检验:
3,回归模型建立的步骤
1)确定回归方程中的解释变量和被解释变量
由于回归分析用于分析一个事物如何随其他事物的变化而变化,因此回归分析的第一步应确定哪个事物是需要被解释的,即哪个变量是被解释变量(记为y);哪些事物是用于解释其他变量的,即哪些变量是解释变量(记为x)。
在多元线性回归分析中,模型中应引入多少解释变量是需要重点研究的。
如果引入的解释变量较少,回归方程将无法很好地解释说明被解释变量的变化。
但是也并非引入解释变量越多越好,因为这些变量之间可能存在多重共线性。
因此要采取一些策略对解释变量引入回归方程加以控制和筛选。
在多元的回归分析中并不是所有的变量都对因变量具有显著的影响,因此就存在着挑选自变量的问题,挑选自变量有多种方法:
前进法、后退法、逐步筛选法等。
2)确定回归模型
根据函数拟合方式,通过观察散点图确定应通过哪种教学模型来概括回归线。
如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;反之,如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。
3)建立回归模型
根据手机到样本数据以及上一步所确定的回归模型,在一定得统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。
对回归方程进行各种检验
各种检验方法在前文中已经涉及,在此不在一一说明。
4)利用方程进行回归预测
建立回归方程的目的之一是根据回归方程对事物的未来发展趋势进行预测。
二问题描述
下面的资料是2009年东北三省部分城市的农村居民人均总支出状况,通过收入支出的时间序列模型的分析给出了从2000到2009年的农村收入支出呈现的增长趋势,以及城乡之间的对比;利用聚类分析说明了收入支出的地区差异。
再利用回归分析建立了东北三省部分城市的农村居民收入与支出之间的模型,试将其农村收入情况进行分类,以了解我国农村居民的基本生活状况。
2009年东北三省部分城市的农村居民人均总支出状况
地区
全年生活
消费总支出
1.食品消费
支出
2.衣着消费
支出
3.居住消费
支出
4.家庭设备、用品消费支出
5.交通和通讯
消费支出
6.文化教育、娱乐
消费支出
7.医疗保健
消费支出
8.其他商品和
服务消费支出
沈阳市
4733.10
1686.30
269.89
925.32
273.10
746.71
377.81
405.41
48.56
大连市
5831.64
2124.22
567.46
1054.79
335.31
724.42
635.93
287.65
101.86
哈尔滨市
5170.68
1734.70
398.23
1082.42
310.54
504.69
587.83
452.49
99.78
长春市
3753.45
1429.99
295.11
662.66
259.90
494.86
274.14
233.74
103.05
吉林市
4542.82
1593.74
256.14
1016.09
310.73
646.01
420.36
252.71
47.03
伊春市
4520.75
1724.56
344.73
812.20
233.29
464.59
495.77
363.94
81.66
大庆市
5239.96
1536.93
344.26
1373.68
296.65
701.18
562.46
312.80
112.00
通化市
3894.78
1430.97
242.01
803.15
287.37
424.09
382.27
261.09
63.82
松原市
3869.58
1472.83
254.91
650.16
294.33
435.55
484.51
194.33
82.96
鞍山市
5440.96
1827.96
504.87
1297.89
272.34
545.68
599.17
312.02
81.02
抚顺市
3859.43
1514.59
367.56
699.84
204.89
498.61
337.07
136.49
100.38
本溪市
4116.64
1594.53
235.05
751.98
264.06
451.03
480.74
298.36
40.89
齐齐哈尔市
3586.68
1352.67
231.59
767.91
241.68
428.10
310.12
183.52
71.09
佳木斯市
2842.74
1203.38
179.75
557.08
177.71
345.94
208.11
132.18
38.60
锦州市
3169.11
1206.23
202.17
523.23
275.47
334.35
375.17
198.42
54.07
白山市
4016.97
1257.16
201.44
1099.79
192.69
469.43
405.20
328.87
62.39
铁岭市
3411.02
1392.24
185.76
653.51
175.00
354.52
351.77
218.67
79.55
三问题分析
(1)收入和支出的概况分析
1,收入支出随时间的增长趋势
表21-1(a)2000年至2009年东北三省部分城市的农村居民人均总收入
年份
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
人均总收入
3872.22
4138.61
4305.77
4482.15
5037.52
5037.52
5037.52
7150.28
8136.66
8683.22
通过上表信息,利用Eviews进行一元线性回归分析,得到如下结果
表21-1(b)人均总收入线性回归结果
DependentVariable:
Y
Method:
LeastSquares
Date:
12/09/11Time:
16:
09
Sample:
20002009
Includedobservations:
10
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
2724.857
299.5539
9.096385
0.0000
X
553.1632
48.27748
11.45800
0.0000
R-squared
0.942564
Meandependentvar
5767.255
AdjustedR-squared
0.935385
S.D.dependentvar
1725.057
S.E.ofregression
438.5020
Akaikeinfocriterion
15.18146
Sumsquaredresid
1538272.
Schwarzcriterion
15.24198
Loglikelihood
-73.90731
F-statistic
131.2857
Durbin-Watsonstat
0.479131
Prob(F-statistic)
0.000003
由表知回归模型为:
=2724.857+553.1632
回归模型的斜率是553.1632,表明每增长一年,人均纯收入增加553.1632元。
从上表中R-squared为0.942564,说明拟合优度比较高;Prob(F-statistic)
为0.000003,说明方程显著地。
2724.857所对应的Prob(t-Statistic)为0.0000,在显著性水平0.05的条件下是显著的,回归系数553.1632所对应的Prob(t-Statistic)为0.0000,说明是显著的。
东北三省部分城市的农民的收入水平是随着我国经济发展而快速增长的一个过程,以2000年为基期,如图所示,农民在2000年时候的人均纯收入水平是3872.22元,
到2009年的时候,其农民的人均总收入水平已经达到了8683.22元。
十年间,东北三省农民的收入一共增加了4811.00元,收入增长了约2.24倍。
总体来讲,东北三省农民的收入一直是呈增加的趋势的。
年份
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
平均每人全年总支出(元)
3036.20
3326.79
3438.78
3521.42.
.3999.23
4561.27
5059.48
5863.21
6697.38
7258.17
表21-1(c)2000年至2009年东北三省农村居民人均总支出及分析结果
表21-1(d)人均总支出回归结果
DependentVariable:
Y
Method:
LeastSquares
Date:
12/09/11Time:
16:
31
Sample:
20002009
Includedobservations:
10
Variable
Coefficient
Std.Error
t-Statistic
Prob.
C
2046.519
272.7071
7.504458
0.0001
X
478.6862
43.95072
10.89143
0.0000
R-squared
0.936820
Meandependentvar
4679.293
AdjustedR-squared
0.928923
S.D.dependentvar
1497.368
S.E.ofregression
399.2023
Akaikeinfocriterion
14.99367
Sumsquaredresid
1274900.
Schwarzcriterion
15.05419
Loglikelihood
-72.96835
F-statistic
118.6233
Durbin-Watsonstat
0.435934
Prob(F-statistic)
0.000004
由表知回归模型为:
=2046.519+478.6862
回归模型的斜率是478.6862,表明每增长一年,人均纯支出增加478.6862元。
从上表中R-squared为0.936820,说明拟合优度比较高;Prob(F-statistic)为0.000004,说明方程显著地。
2046.519所对应的Prob(t-Statistic)为0.0001,在显著性水平0.05的条件下是显著的,回归系数478.6862所对应的Prob(t-Statistic)为0.0000,说明是显著的。
东北的农民的支出水平也是随着我国经济发展而快速增长的一个过程,以2000年为基期,如表所示,农民在2000年时候的人均总支出水平是3036.20元,到2009年的时候,东北的农民的人均总支出水平已经达到了7258.17元。
十年间,东北三省农民的收入一共增加了4221.97元,支出增长了约2.39倍。
总体来讲,东北三省的农民的收入一直是呈增加的趋势的。
(2)收入支出的城乡差异
表21-1(d)农村人均总收入总支出
年份
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
总收入
3872.22
4138.61
4305.77
4482.15
5037.52
5676.98
6188.54
7150.28
8136.66
8683.82
总支出
3036.20
3326.79
3438.78
3521.42
3999.23
4561.27
5090.48
5863.21
6697.38
7258.17
表21-1(e)城镇人人均总收入总支出
年份
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
总收入
6521.6
7141.16
8158.13
9057.58
10187.12
10744.79
13222.85
15366.26
17548.97
19336.91
总支出
5022.00
5252.42
5596.43
6069.35
6673.75
7457.31
8468.4
9666.61
11006.61
12012.73
由表可知:
城镇收入支出和农村收入的变化速度都是随着年份的增加由缓慢逐渐增快,但是城镇明显的收入支出比农村的收入要快,而且随着时间的增加,城镇与农村的差距越来越大,但总体都是增长的较快。
(3)收入支出的地区差异
这里利用附录中的关于东北三省17个地区的收入支出表,进行聚类分析和因子分析,从而得到不同地区之间收入支出的差异和不同的支出指标之间的差异。
四计算求解
(一)利用聚类分析分类收入差异
1,利用聚类分析处理17个地区之间的收入差异,运用spss软件处理得到的结果如下:
图4-2东北三省17个市的年纯收入的聚类分析结果
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
13 ─┐齐齐哈尔
16 ─┤白山
14 ─┼─┐佳木斯
11 ─┘ ├─┐抚顺
4 ─┬─┘ ├─────────┐长春
8 ─┘ │ │通化
15 ─┬───┘ ├─────┐锦州
17 ─┘ │ ├───────────┐铁岭
9 ───────────────┘ │ │松原
5 ───┬─────────────────┘ │吉林
12 ───┘ ├───────────────┐本溪
6 ───┬─┐ │ │伊春
7 ───┘ ├───────┐ │ │大庆
1 ─────┘ ├───────────────────┘ │沈阳
2 ───────┬─────┘ │大连
10 ───────┘ │鞍山
3 ─────────────────────────────────────────────────┘哈尔滨
这里,利用SPSS层次聚类的Q型聚类对东北三省17个市区进行分析。
其中,个体距离采用平方欧式距离,类间距离采用组间平均连锁距离,由于数据不存在数量级上的差异,因此无须进行标准化处理。
生成的聚类分析树形图如图4-2所示,其他结果略去。
通过分析归纳,认为分为三类比较合适,伊春,大庆,沈阳,大连,鞍山地理位置也是比较近,都位于东北的东北部,之间的地理特点,文化风俗,经济主体相似,都是东北的重要城市,经济发展水平较高。
大都是沿海城市,有利于经济的发展,所以收入普遍肩高。
淄博年纯收入较高,可以这样解释,哈尔滨是东北乃至全国重要的重化工业基地,工业发展以石油化工、医药、建材、冶金、机械、等行业为骨干,门类齐全,特色鲜明,比较
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计 课程设计