数据统计分析实验指导书.docx
- 文档编号:18417622
- 上传时间:2023-08-16
- 格式:DOCX
- 页数:36
- 大小:542.97KB
数据统计分析实验指导书.docx
《数据统计分析实验指导书.docx》由会员分享,可在线阅读,更多相关《数据统计分析实验指导书.docx(36页珍藏版)》请在冰点文库上搜索。
数据统计分析实验指导书
《数据统计分析》
实验指导书
彭志捌编写
适用专业:
信息与计算科学
安徽建筑大学数理系(部)
2012年10月
前言
本指导手册作为《数据统计分析》课程中部分的实验内容,因而对涉及的多元统计知识一般只做简要的概括而不作详细解释。
也不是SPSS的使用说明书,并假设使用者已经掌握了基本的Windows和MSOffice的操作知识,对基础的操作以及超出统计学原理范围的功能一般未作介绍。
涵盖了大部分常用的统计方法,包括了基本的数据处理技巧、描述统计、统计图和统计表、方差分析、回归分析、主成分分析、因子分析、判别分析、聚类分析等方面的内容。
为了使学生更好地理解和深刻地掌握这些知识,需要学生上机实际操作SPSS应用统计软件。
实验环境使用SPSS版本为18.0系统或以上。
实验一描述性统计分析
一、实验目的与要求
统计分析的目的在于研究总体特征。
但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。
因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。
通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
本本实验旨在于:
引到学生利用正确的统计方法对数据进行适当的整理和显示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。
二、实验原理
描述统计是统计分析的基础,它包括数据的收集、整理、显示,对数据中有用信息的提取和分析,通常用一些描述统计量来进行分析。
集中趋势的特征值:
算术平均数、调和平均数、几何平均数、众数、中位数等。
其中均数适用于正态分布和对称分布资料,中位数适用于所有分布类型的资料。
离散趋势的特征值:
全距、内距、平均差、方差、标准差、标准误、离散系数等。
其中标准差、方差适用于正态分布资料,标准误实际上反映了样本均数的波动程度。
分布特征值:
偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。
三、实验内容与步骤
下面给出的一个例题是来自SPSS软件自带的数据文件“Employee.data”,该文件包含某公司员工的工资、工龄、职业等变量,我们将利用此例题给出相关的描述统计说明,本例中,我们将以员工的当前工资为例,计算该公司员工当前工资的一些描述统计量,如均值、频数、方差等描述统计量的计算。
1.频数分析(Frequencies)
基本统计分析往往从频数分析开始。
通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。
比如,在某项调查中,想要知道被调查者的性别分布状况。
频数分析的第一个基本任务是编制频数分布表。
SPSS中的频数分布表包括的内容有:
(1)频数(Frequency)即变量值落在某个区间中的次数。
(2)百分比(Percent)即各频数占总样本数的百分比。
(3)有效百分比(ValidPercent)即各频数占有效样本数的百分比。
这里有效样本数=总样本-缺失样本数。
(4)累计百分比(CumulativePercent)即各百分比逐级累加起来的结果。
最终取值为百分之百。
频数分析的第二个基本任务是绘制统计图。
统计图是一种最为直接的数据刻画方式,能够非常清晰直观地展示变量的取值状况。
频数分析中常用的统计图包括:
条形图,饼图,直方图等。
频数分析的应用步骤
在SPSS中的频数分析的实现步骤如下:
选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据文件“SPSS/Employeedata”,然后选择“打开”。
选择菜单“【分析】—>【描述统计】—>【频率】”。
如图1.1所示
询问是否输出频数分布表
图1.1Frequencies对话框
确定所要分析的变量,例如年龄
在变量选择确定之后,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,如下图1.2所示,选择统计输出选项。
图1.2统计量子对话框
图1.3Charts子对话框
结果输出与分析
点击Frequencies对话框中的“OK”按钮,即得到下面的结果。
表1.4描述性统计量
Statistics
Gender
N
Valid
474
Missing
0
表1.4中给出了总样本量(N),其中变量Gender的有效个数(Valid)为474个、缺失值(missing)为0。
表2.5Gender频数分布表
Frequency
Percent
ValidPercent
CumulativePercent
Valid
Female
216
45.6
45.6
45.6
Male
258
54.4
54.4
100.0
Total
474
100.0
100.0
表1.5中,Frequency是频数,Percent是按总样本量为分母计算的百分比,ValidPercent是以有效样本量为分母计算的百分比,CumulativePercent是累计百分比。
图1.5变量Gender的条形图,图1.6变量Gender的饼图。
图1.5变量gender的条形图
图1.6变量gender的饼图
2.描述统计(Descriptives)
SPSS的【描述】命令专门用于计算各种描述统计性统计量。
本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。
具体操作步骤如下:
选择菜单【分析】→【描述统计】→【描述】,如图1.7所示
图1.7描述对话框
将待分析的变量移入Variables列表框,例如将每股收益率、净资产收益率、资产负债率等2个变量进行描述性统计,以观察上市公司股权集中度情况和负债比率的高低。
Savestandardizedvaluesasvariables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。
其变量名为相应变量名前加前缀z。
标准化计算公式:
单击【选项】按钮,如图1.8所示,选择需要计算的描述统计量。
各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同,这里不再重复。
图1.8选项子对话框
在主对话框中单击ok执行操作。
结果输出与分析
在结果输出窗口中给出了所选变量的相应描述统计,如表1.6所示。
从表中可以看到,我国上市公司前两大股东持股比例之比平均高达102.9,说明“一股独大”的现象比较严重;前五大股东持股比例之和平均为51.8%,资产负债率平均为46.78%。
另外,从偏态和峰度指标看出,前两大股东持股比例之比的分布呈现比较明显的右偏,而且比较尖峭。
为了验证这一结论,可以利用Frequencies命令画出变量z的直方图,如图1.9
表1.6描述统计量表
DescriptiveStatistics
N
Mean
Std.
Skewness
Kurtosis
Statistic
Statistic
Statistic
Statistic
Std.Error
Statistic
Std.Error
前两大股东持股比例之比
315
102.865
199.199746
4.168
.137
22.404
.274
前五大股东持股比例的平方和
315
.51836
.1496003
.602
.137
-.318
.274
资产负债率
315
.4677
.16773
-.165
.137
-.414
.274
ValidN(listwise)
315
图1.9变量Z的直方图
3.探索分析(Explore)
调用此过程可对变量进行更为深入详尽的描述性统计分析,故称之为探索分析。
它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,显得更加细致与全面,对数据分析更进一步。
探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。
一般以图形方式输出,直观帮助研究者确定奇异值、影响点、还可以进行假设检验,以及确定研究者要使用的某种统计方式是否合适。
在打开的数据文件上,选择如下命令:
选择菜单“【分析】—>【描述统计】—>【探索】”,打开对话框。
因变量列表;待分析的变量名称,例如将每股收益率作为研究变量。
因子列表:
从源变量框中选择一个或多个变量进入因子列表,分组变量可以将数据按照该观察值进行分组分析。
标准个案:
在源变量表中指定一个变量作为观察值的标识变量。
在输出栏中,选择两者都,表示输出图形及描述统计量。
选择【统计量】按钮,选择想要计算的描述统计量。
如图所示
对所要计算的变量的频数分布及其统计量值作图打开“Plots对话框”,出现如下图。
♦结果的输出与说明
(1)CaseProcessingSummary表
在CaseProcessingSummary表中可以看出female有216个个体,Male258个个体,均无缺失值。
(2)Descriptives表
Descriptives
Gender
Statistic
Std.Error
CurrentSalary
Female
Mean
$26,031.92
$514.258
95%ConfidenceIntervalforMean
LowerBound
$25,018.29
UpperBound
$27,045.55
5%TrimmedMean
$25,248.30
Median
$24,300.00
Variance
57123688.268
Std.Deviation
$7,558.021
Minimum
$15,750
Maximum
$58,125
Range
$42,375
InterquartileRange
$7,013
Skewness
1.863
.166
Kurtosis
4.641
.330
Male
Mean
$41,441.78
$1,213.968
95%ConfidenceIntervalforMean
LowerBound
$39,051.19
UpperBound
$43,832.37
5%TrimmedMean
$39,445.87
Median
$32,850.00
Variance
380219336.303
Std.Deviation
$19,499.214
Minimum
$19,650
Maximum
$135,000
Range
$115,350
InterquartileRange
$22,675
Skewness
1.639
.152
Kurtosis
2.780
.302
(3)职位员工薪水直方图显示
(4)茎叶图描述
茎叶图自左向右可以分为3大部分:
频数(Frequency)、茎(Stem)和叶(Leaf)。
茎表示数值的整数部分,叶表示数值的小数部分。
每行的茎和每个叶组成的数字相加再乘以茎宽(StemWidth),即茎叶所表示的实际数值的近似值。
CurrentSalaryStem-and-LeafPlotfor
gender=Female
FrequencyStem&Leaf
2.001.55
16.001.6666666666777777
14.001.88889999999999
31.002.0000000000000111111111111111111
35.002.22222222222222222222233333333333333
38.002.44444444444444444444444444555555555555
22.002.6666666666677777777777
17.002.88888899999999999
7.003.0001111
8.003.22233333
8.003.44444555
5.003.66777
2.003.88
11.00Extremes(>=40800)
Stemwidth:
10000
Eachleaf:
1case(s)
(5)箱图
图中灰色区域的方箱为箱图的主体,上中下3条线分别表示变量值的第75、50、25百分位数,因此变量的50%观察值落在这一区域中。
方箱中的中心粗线为中位数。
箱图中的触须线是中间的纵向直线,上端截至线为变量的最大值,下端截至线为变量的最小值。
四、备择实验
完成下列实验内容,并按实验报告的格式撰写报告。
1.表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验报告作出说明。
表2.7某班16位学生的身高数据
学号
性别
身高(cm)
学号
性别
身高(cm)
1
M
170
9
M
150
2
F
173
10
M
157
3
F
169
11
F
177
4
M
155
12
M
160
5
F
174
13
F
169
6
F
178
14
M
154
7
M
156
15
F
172
8
F
171
16
F
180
2.测量18台电脑笔记重量,见表2.8,对其进行描述统计量分析,并对实验结果作出说明。
表2.818台笔记本电脑重量表
序号
1
2
3
4
5
6
7
8
9
重量
1.75
1.92
1.59
1.85
1.83
1.68
1.89
1.70
1.79
序号
10
11
12
13
14
15
16
17
18
重量
1.66
1.80
1.83
2.05
1.91
1.76
1.88
1.83
1.79
3.教材习题一P33,1.1—1.7
实验数据:
实验2:
均值比较、方差分析
一、实验目标与要求
1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理
2.掌握方差分析的过程。
3.增强学生的实践能力,使学生能够利用SPSS统计软件,熟练进行单因素方差分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能力。
二、实验原理
在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多。
例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的销量受商品价格、质量、广告等的影响。
为此引入方差分析的方法。
方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较,据以推断各组样本之间是否存在显著差异。
若存在显著差异,则说明该因素对各总体的影响是显著的。
方差分析有3个基本的概念:
观测变量、因素和水平。
观测变量是进行方差分析所研究的对象;因素是影响观测变量变化的客观或人为条件;因素的不同类别或不通取值则称为因素的不同水平。
在上面的例子中,农作物的产量和商品的销量就是观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。
在方差分析中,因素常常是某一个或多个离散型的分类变量。
根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析;根据因素个数,可分为单因素方差分析和多因素方差分析。
在SPSS中,有One-wayANOVA(单变量-单因素方差分析)、GLMUnivariate(单变量多因素方差分析);GLMMultivariate(多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。
本节仅练习最为常用的单因素单变量方差分析。
三、实验演示内容与步骤
单因素方差分析也称一维方差分析,对两组以上的均值加以比较。
检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。
并可以进行两两组间均值的比较,称作组间均值的多重比较。
主要采用One-wayANOVA过程。
采用One-wayANOVA过程要求:
因变量属于正态分布总体,若因变量的分布明显是非正态,应该用非参数分析过程。
若对被观测对象的实验不是随机分组的,而是进行的重复测量形成几个彼此不独立的变量,应该用RepeatedMeasure菜单项,进行重复测量方差分析,条件满足时,还可以进行趋势分析。
假设某汽车经销商为了研究东部、西部和中部地区市场上汽车的销量是否存在显著差异,在每个地区随机抽取几个城市进行调查统计,调查数据放置于数据文件“汽车销量调查.sav”中。
在SPSS中实验该检验的步骤如下:
♦步骤1:
选择菜单【分析】→【比较均值】→【单因素方差分析】,依次将观测变量销量移入因变量列表框,将因素变量地区移入因子列表框。
图2.1One-WayANOVA对话框
♦单击两两比较按钮,如图2.2,该对话框用于进行多重比较检验,即各因素水平下观测变量均值的两两比较。
方差分析的原假设是各个因素水平下的观测变量均值都相等,备择假设是各均值不完全相等。
假如一次方差分析的结果是拒绝原假设,我们只能判断各观测变量均值不完全相等,却不能得出各均值完全不相等的结论。
各因素水平下观测变量均值的更为细致的比较就需要用多重比较检验。
图2.2两两比较对话框
假定方差齐性选项栏中给出了在观测变量满足不同因素水平下的方差齐性条件下的多种检验方法。
这里选择最常用的LSD检验法;未假定方差齐性选项栏中给出了在观测变量不满足方差齐性条件下的多种检验方法。
这里选择Tamhane’sT2检验法;Significancelevel输入框中用于输入多重比较检验的显示性水平,默认为5%。
♦单击选项按钮,弹出options子对话框,如图所示。
在对话框中选中描述性复选框,输出不同因素水平下观测变量的描述统计量;选择方差同质性检验复选框,输出方差齐性检验结果;选中均值图复选框,输出不同因素水平下观测变量的均值直线图。
♦在主对话框中点击ok按钮,可以得到单因素分析的结果。
实验结果分析:
表4.1给出了不同地区汽车销量的基本描述统计量以及95%的置信区间。
图2.3选项子对话框
表2.1各个地区汽车销量描述统计量
Descriptives
销量
N
Mean
Std.Deviation
Std.Error
95%ConfidenceIntervalforMean
Minimum
Maximum
LowerBound
UpperBound
西
10
157.90
22.278
7.045
141.96
173.84
120
194
中
9
176.44
19.717
6.572
161.29
191.60
135
198
东
7
196.14
30.927
11.689
167.54
224.75
145
224
Total
26
174.62
27.845
5.461
163.37
185.86
120
224
表2.2给出了Levene方差齐性检验结果。
从表中可以看到,Levene统计量对应的p值大于0.05,所以得到不同地区汽车销量满足方差齐性的结论。
表2.2各地区汽车销量方差齐性检验表
TestofHomogeneityofVariances
LeveneStatistic
df1
df2
Sig.
1.262
2
23
.302
表2.3是单因素方差分析,输出的方差分析表解释如下:
总离差SST=19384.154,组间平方和SSR=6068.174,组内平方和或残差平方和SSE=13315.979,相应的自由度分别为25,2,23;组间均方差MSR=3034.087,组内均方差578.956,F=5.241,由于p=0.013<0.05说明在α=0.05显著性水平下,F检验是显著的。
即认为各个地区的汽车销量并不完全相同。
表2.3单因素方差分析结果
ANOVA
销量
SumofSquares
df
MeanSquare
F
Sig.
BetweenGroups
6068.174
2
3034.087
5.241
.013
WithinGroups
13315.979
23
578.956
Total
19384.154
25
表2.4多重比较检验结果
MultipleComparisons
DependentVariable:
销量
(I)地区
(J)地区
MeanDifference(I-J)
Std.Error
Sig.
95%ConfidenceInterval
LowerBound
UpperBound
LSD
西
中
-18.544
11.055
.107
-41.41
4.33
东
-38.243(*)
11.858
.004
-62.77
-13.71
中
西
18.544
11.055
.107
-4.33
41.41
东
-19.698
12.126
.118
-44.78
5.39
东
西
38.243(*)
11.858
.004
13.71
62.77
中
19.698
12.126
.118
-5.39
44.78
Tamhane
西
中
-18.544
9.635
.199
-44.05
6.96
东
-38.243
13.648
.054
-77.10
.61
中
西
18.544
9.635
.199
-6.96
44.05
东
-19.698
13.410
.436
-58.31
18.91
东
西
38.243
13.648
.054
-.61
77.10
中
19.698
13.410
.436
-18.91
58.31
*Themeandifferenceissignificantatthe.05level.
如前所述,拒绝单因素方差分析原假设并不能得出各地区汽车销量均值完全不等
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计分析 实验 指导书
![提示](https://static.bingdoc.com/images/bang_tan.gif)