书签分享收藏举报版权申诉 / 36

立即下载加入VIP,免费下载

当前位置：首页 > 工作范文 > 行政公文 > 数据统计分析实验指导书.docx

数据统计分析实验指导书.docx

文档编号：18417622
上传时间：2023-08-16
格式：DOCX
页数：36
大小：542.97KB

数据统计分析实验指导书.docx

《数据统计分析实验指导书.docx》由会员分享，可在线阅读，更多相关《数据统计分析实验指导书.docx（36页珍藏版）》请在冰点文库上搜索。

数据统计分析实验指导书.docx

数据统计分析实验指导书

《数据统计分析》

实验指导书

彭志捌编写

适用专业：

信息与计算科学

安徽建筑大学数理系（部）

2012年10月

前言

本指导手册作为《数据统计分析》课程中部分的实验内容，因而对涉及的多元统计知识一般只做简要的概括而不作详细解释。

也不是SPSS的使用说明书，并假设使用者已经掌握了基本的Windows和MSOffice的操作知识，对基础的操作以及超出统计学原理范围的功能一般未作介绍。

涵盖了大部分常用的统计方法，包括了基本的数据处理技巧、描述统计、统计图和统计表、方差分析、回归分析、主成分分析、因子分析、判别分析、聚类分析等方面的内容。

为了使学生更好地理解和深刻地掌握这些知识，需要学生上机实际操作SPSS应用统计软件。

实验环境使用SPSS版本为18.0系统或以上。

实验一描述性统计分析

一、实验目的与要求

统计分析的目的在于研究总体特征。

但是，由于各种各样的原因，我们能够得到的往往只能是从总体中随机抽取的一部分观察对象，他们构成了样本，只有通过对样本的研究，我们才能对总体的实际情况作出可能的推断。

因此描述性统计分析是统计分析的第一步，做好这一步是进行正确统计推断的先决条件。

通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度，或对数据进行初步的探索性分析（包括检查数据是否有错误，对数据分布特征和规律进行初步观察）。

本本实验旨在于：

引到学生利用正确的统计方法对数据进行适当的整理和显示，描述并探索出数据内在的数量规律性，掌握统计思想，培养学生学习统计学的兴趣，为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。

二、实验原理

描述统计是统计分析的基础，它包括数据的收集、整理、显示，对数据中有用信息的提取和分析，通常用一些描述统计量来进行分析。

集中趋势的特征值：

算术平均数、调和平均数、几何平均数、众数、中位数等。

其中均数适用于正态分布和对称分布资料，中位数适用于所有分布类型的资料。

离散趋势的特征值：

全距、内距、平均差、方差、标准差、标准误、离散系数等。

其中标准差、方差适用于正态分布资料，标准误实际上反映了样本均数的波动程度。

分布特征值：

偏态系数、峰度系数、他们反映了数据偏离正态分布的程度。

三、实验内容与步骤

下面给出的一个例题是来自SPSS软件自带的数据文件“Employee.data”，该文件包含某公司员工的工资、工龄、职业等变量，我们将利用此例题给出相关的描述统计说明，本例中，我们将以员工的当前工资为例，计算该公司员工当前工资的一些描述统计量，如均值、频数、方差等描述统计量的计算。

1．频数分析（Frequencies）

基本统计分析往往从频数分析开始。

通过频数分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。

比如，在某项调查中，想要知道被调查者的性别分布状况。

频数分析的第一个基本任务是编制频数分布表。

SPSS中的频数分布表包括的内容有：

（1）频数（Frequency）即变量值落在某个区间中的次数。

（2）百分比（Percent）即各频数占总样本数的百分比。

（3）有效百分比（ValidPercent）即各频数占有效样本数的百分比。

这里有效样本数＝总样本－缺失样本数。

（4）累计百分比（CumulativePercent）即各百分比逐级累加起来的结果。

最终取值为百分之百。

频数分析的第二个基本任务是绘制统计图。

统计图是一种最为直接的数据刻画方式，能够非常清晰直观地展示变量的取值状况。

频数分析中常用的统计图包括：

条形图，饼图，直方图等。

频数分析的应用步骤

在SPSS中的频数分析的实现步骤如下：

选择菜单“【文件】—>【打开】—>【数据】”在对话框中找到需要分析的数据文件“SPSS/Employeedata”，然后选择“打开”。

选择菜单“【分析】—>【描述统计】—>【频率】”。

如图1.1所示

询问是否输出频数分布表

图1.1Frequencies对话框

确定所要分析的变量，例如年龄

在变量选择确定之后，在同一窗口上，点击“Statistics”按钮，打开统计量对话框，如下图1.2所示，选择统计输出选项。

图1.2统计量子对话框

图1.3Charts子对话框

结果输出与分析

点击Frequencies对话框中的“OK”按钮，即得到下面的结果。

表1.4描述性统计量

Statistics

Gender

N

Valid

474

Missing

0

表1.4中给出了总样本量（N），其中变量Gender的有效个数（Valid）为474个、缺失值（missing）为0。

表2.5Gender频数分布表

Frequency

Percent

ValidPercent

CumulativePercent

Valid

Female

216

45.6

Male

258

54.4

100.0

Total

474

100.0

表1.5中，Frequency是频数，Percent是按总样本量为分母计算的百分比，ValidPercent是以有效样本量为分母计算的百分比，CumulativePercent是累计百分比。

图1.5变量Gender的条形图，图1.6变量Gender的饼图。

图1.5变量gender的条形图

图1.6变量gender的饼图

2．描述统计（Descriptives）

SPSS的【描述】命令专门用于计算各种描述统计性统计量。

本节利用某年国内上市公司的财务数据来介绍描述统计量在SPSS中的计算方法。

具体操作步骤如下：

选择菜单【分析】→【描述统计】→【描述】，如图1.7所示

图1.7描述对话框

将待分析的变量移入Variables列表框，例如将每股收益率、净资产收益率、资产负债率等2个变量进行描述性统计，以观察上市公司股权集中度情况和负债比率的高低。

Savestandardizedvaluesasvariables，对所选择的每个变量进行标准化处理，产生相应的Z分值，作为新变量保存在数据窗口中。

其变量名为相应变量名前加前缀z。

标准化计算公式：

单击【选项】按钮，如图1.8所示，选择需要计算的描述统计量。

各描述统计量同Frequencies命令中的Statistics子对话框中大部分相同，这里不再重复。

图1.8选项子对话框

在主对话框中单击ok执行操作。

结果输出与分析

在结果输出窗口中给出了所选变量的相应描述统计，如表1.6所示。

从表中可以看到，我国上市公司前两大股东持股比例之比平均高达102.9，说明“一股独大”的现象比较严重；前五大股东持股比例之和平均为51.8%，资产负债率平均为46.78%。

另外，从偏态和峰度指标看出，前两大股东持股比例之比的分布呈现比较明显的右偏，而且比较尖峭。

为了验证这一结论，可以利用Frequencies命令画出变量z的直方图，如图1.9

表1.6描述统计量表

DescriptiveStatistics

N

Mean

Std.

Skewness

Kurtosis

Statistic

Std.Error

Statistic

Std.Error

前两大股东持股比例之比

315

102.865

199.199746

4.168

.137

22.404

.274

前五大股东持股比例的平方和

315

.51836

.1496003

.602

.137

-.318

.274

资产负债率

315

.4677

.16773

-.165

.137

-.414

.274

ValidN（listwise）

315

图1.9变量Z的直方图

3．探索分析（Explore）

调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索分析。

它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，显得更加细致与全面，对数据分析更进一步。

探索分析一般通过数据文件在分组与不分组的情况下获得常用统计量和图形。

一般以图形方式输出，直观帮助研究者确定奇异值、影响点、还可以进行假设检验，以及确定研究者要使用的某种统计方式是否合适。

在打开的数据文件上，选择如下命令：

选择菜单“【分析】—>【描述统计】—>【探索】”，打开对话框。

因变量列表；待分析的变量名称，例如将每股收益率作为研究变量。

因子列表：

从源变量框中选择一个或多个变量进入因子列表，分组变量可以将数据按照该观察值进行分组分析。

标准个案：

在源变量表中指定一个变量作为观察值的标识变量。

在输出栏中，选择两者都，表示输出图形及描述统计量。

选择【统计量】按钮，选择想要计算的描述统计量。

如图所示

对所要计算的变量的频数分布及其统计量值作图打开“Plots对话框”，出现如下图。

♦结果的输出与说明

（1）CaseProcessingSummary表

在CaseProcessingSummary表中可以看出female有216个个体，Male258个个体，均无缺失值。

（2）Descriptives表

Descriptives

Gender

Statistic

Std.Error

CurrentSalary

Female

Mean

$26,031.92

$514.258

95%ConfidenceIntervalforMean

LowerBound

$25,018.29

UpperBound

$27,045.55

5%TrimmedMean

$25,248.30

Median

$24,300.00

Variance

57123688.268

Std.Deviation

$7,558.021

Minimum

$15,750

Maximum

$58,125

Range

$42,375

InterquartileRange

$7,013

Skewness

1.863

.166

Kurtosis

4.641

.330

Male

Mean

$41,441.78

$1,213.968

95%ConfidenceIntervalforMean

LowerBound

$39,051.19

UpperBound

$43,832.37

5%TrimmedMean

$39,445.87

Median

$32,850.00

Variance

380219336.303

Std.Deviation

$19,499.214

Minimum

$19,650

Maximum

$135,000

Range

$115,350

InterquartileRange

$22,675

Skewness

1.639

.152

Kurtosis

2.780

.302

（3）职位员工薪水直方图显示

（4）茎叶图描述

茎叶图自左向右可以分为3大部分：

频数（Frequency）、茎（Stem）和叶（Leaf）。

茎表示数值的整数部分，叶表示数值的小数部分。

每行的茎和每个叶组成的数字相加再乘以茎宽（StemWidth），即茎叶所表示的实际数值的近似值。

CurrentSalaryStem-and-LeafPlotfor

gender=Female

FrequencyStem&Leaf

2.001.55

16.001.6666666666777777

14.001.88889999999999

31.002.0000000000000111111111111111111

35.002.22222222222222222222233333333333333

38.002.44444444444444444444444444555555555555

22.002.6666666666677777777777

17.002.88888899999999999

7.003.0001111

8.003.22233333

8.003.44444555

5.003.66777

2.003.88

11.00Extremes（>=40800）

Stemwidth:

10000

Eachleaf:

1case（s）

（5）箱图

图中灰色区域的方箱为箱图的主体，上中下3条线分别表示变量值的第75、50、25百分位数，因此变量的50%观察值落在这一区域中。

方箱中的中心粗线为中位数。

箱图中的触须线是中间的纵向直线，上端截至线为变量的最大值，下端截至线为变量的最小值。

四、备择实验

完成下列实验内容，并按实验报告的格式撰写报告。

1.表2.7为某班级16位学生的身高数据，对其进行频数分析，并对实验报告作出说明。

表2.7某班16位学生的身高数据

学号

性别

身高（cm）

学号

性别

身高（cm）

1

M

170

9

M

150

2

F

173

10

M

157

3

F

169

11

F

177

4

M

155

12

M

160

5

F

174

13

F

169

6

F

178

14

M

154

7

M

156

15

F

172

8

F

171

16

F

180

2.测量18台电脑笔记重量，见表2.8，对其进行描述统计量分析，并对实验结果作出说明。

表2.818台笔记本电脑重量表

序号

1

2

3

4

5

6

7

8

9

重量

1.75

1.92

1.59

1.85

1.83

1.68

1.89

1.70

1.79

序号

10

11

12

13

14

15

16

17

18

重量

1.66

1.80

1.83

2.05

1.91

1.76

1.88

1.83

1.79

3.教材习题一P33，1.1—1.7

实验数据：

实验2：

均值比较、方差分析

一、实验目标与要求

1．帮助学生深入了解方差及方差分析的基本概念，掌握方差分析的基本思想和原理

2．掌握方差分析的过程。

3．增强学生的实践能力，使学生能够利用SPSS统计软件，熟练进行单因素方差分析、两因素方差分析等操作，激发学生的学习兴趣，增强自我学习和研究的能力。

二、实验原理

在现实的生产和经营管理过程中，影响产品质量、数量或销量的因素往往很多。

例如，农作物的产量受作物的品种、施肥的多少及种类等的影响；某种商品的销量受商品价格、质量、广告等的影响。

为此引入方差分析的方法。

方差分析也是一种假设检验，它是对全部样本观测值的变动进行分解，将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较，据以推断各组样本之间是否存在显著差异。

若存在显著差异，则说明该因素对各总体的影响是显著的。

方差分析有3个基本的概念：

观测变量、因素和水平。

观测变量是进行方差分析所研究的对象；因素是影响观测变量变化的客观或人为条件；因素的不同类别或不通取值则称为因素的不同水平。

在上面的例子中，农作物的产量和商品的销量就是观测变量，作物的品种、施肥种类、商品价格、广告等就是因素。

在方差分析中，因素常常是某一个或多个离散型的分类变量。

根据观测变量的个数，可将方差分析分为单变量方差分析和多变量方差分析；根据因素个数，可分为单因素方差分析和多因素方差分析。

在SPSS中，有One－wayANOVA（单变量－单因素方差分析）、GLMUnivariate（单变量多因素方差分析）；GLMMultivariate（多变量多因素方差分析），不同的方差分析方法适用于不同的实际情况。

本节仅练习最为常用的单因素单变量方差分析。

三、实验演示内容与步骤

单因素方差分析也称一维方差分析，对两组以上的均值加以比较。

检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。

并可以进行两两组间均值的比较，称作组间均值的多重比较。

主要采用One-wayANOVA过程。

采用One-wayANOVA过程要求：

因变量属于正态分布总体，若因变量的分布明显是非正态，应该用非参数分析过程。

若对被观测对象的实验不是随机分组的，而是进行的重复测量形成几个彼此不独立的变量，应该用RepeatedMeasure菜单项，进行重复测量方差分析，条件满足时，还可以进行趋势分析。

假设某汽车经销商为了研究东部、西部和中部地区市场上汽车的销量是否存在显著差异，在每个地区随机抽取几个城市进行调查统计，调查数据放置于数据文件“汽车销量调查.sav”中。

在SPSS中实验该检验的步骤如下：

♦步骤1：

选择菜单【分析】→【比较均值】→【单因素方差分析】，依次将观测变量销量移入因变量列表框，将因素变量地区移入因子列表框。

图2.1One-WayANOVA对话框

♦单击两两比较按钮，如图2.2，该对话框用于进行多重比较检验，即各因素水平下观测变量均值的两两比较。

方差分析的原假设是各个因素水平下的观测变量均值都相等，备择假设是各均值不完全相等。

假如一次方差分析的结果是拒绝原假设，我们只能判断各观测变量均值不完全相等，却不能得出各均值完全不相等的结论。

各因素水平下观测变量均值的更为细致的比较就需要用多重比较检验。

图2.2两两比较对话框

假定方差齐性选项栏中给出了在观测变量满足不同因素水平下的方差齐性条件下的多种检验方法。

这里选择最常用的LSD检验法；未假定方差齐性选项栏中给出了在观测变量不满足方差齐性条件下的多种检验方法。

这里选择Tamhane’sT2检验法；Significancelevel输入框中用于输入多重比较检验的显示性水平，默认为5％。

♦单击选项按钮，弹出options子对话框，如图所示。

在对话框中选中描述性复选框，输出不同因素水平下观测变量的描述统计量；选择方差同质性检验复选框，输出方差齐性检验结果；选中均值图复选框，输出不同因素水平下观测变量的均值直线图。

♦在主对话框中点击ok按钮，可以得到单因素分析的结果。

实验结果分析：

表4.1给出了不同地区汽车销量的基本描述统计量以及95%的置信区间。

图2.3选项子对话框

表2.1各个地区汽车销量描述统计量

Descriptives

销量

N

Mean

Std.Deviation

Std.Error

95%ConfidenceIntervalforMean

Minimum

Maximum

LowerBound

UpperBound

西

10

157.90

22.278

7.045

141.96

173.84

120

194

中

9

176.44

19.717

6.572

161.29

191.60

135

198

东

7

196.14

30.927

11.689

167.54

224.75

145

224

Total

26

174.62

27.845

5.461

163.37

185.86

120

224

表2.2给出了Levene方差齐性检验结果。

从表中可以看到，Levene统计量对应的p值大于0.05,所以得到不同地区汽车销量满足方差齐性的结论。

表2.2各地区汽车销量方差齐性检验表

TestofHomogeneityofVariances

LeveneStatistic

df1

df2

Sig.

1.262

2

23

.302

表2.3是单因素方差分析，输出的方差分析表解释如下：

总离差SST＝19384.154，组间平方和SSR＝6068.174，组内平方和或残差平方和SSE＝13315.979，相应的自由度分别为25，2，23；组间均方差MSR＝3034.087，组内均方差578.956，F＝5.241，由于p＝0.013<0.05说明在α＝0.05显著性水平下，F检验是显著的。

即认为各个地区的汽车销量并不完全相同。

表2.3单因素方差分析结果

ANOVA

销量

SumofSquares

df

MeanSquare

F

Sig.

BetweenGroups

6068.174

2

3034.087

5.241

.013

WithinGroups

13315.979

23

578.956

Total

19384.154

25

表2.4多重比较检验结果

MultipleComparisons

DependentVariable:

销量

（I）地区

（J）地区

MeanDifference（I-J）

Std.Error

Sig.

95%ConfidenceInterval

LowerBound

UpperBound

LSD

西

中

-18.544

11.055

.107

-41.41

4.33

东

-38.243（*）

11.858

.004

-62.77

-13.71

中

西

18.544

11.055

.107

-4.33

41.41

东

-19.698

12.126

.118

-44.78

5.39

东

西

38.243（*）

11.858

.004

13.71

62.77

中

19.698

12.126

.118

-5.39

44.78

Tamhane

西

中

-18.544

9.635

.199

-44.05

6.96

东

-38.243

13.648

.054

-77.10

.61

中

西

18.544

9.635

.199

-6.96

44.05

东

-19.698

13.410

.436

-58.31

18.91

东

西

38.243

13.648

.054

-.61

77.10

中

19.698

13.410

.436

-18.91

58.31

*Themeandifferenceissignificantatthe.05level.

如前所述，拒绝单因素方差分析原假设并不能得出各地区汽车销量均值完全不等

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据统计分析实验指导书

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据统计分析实验指导书.docx
链接地址：https://www.bingdoc.com/p-18417622.html

数据统计分析实验指导书.docx

热门标签