统计案例分析大学生月平均生活费的估计和检验.docx
- 文档编号:16235018
- 上传时间:2023-07-12
- 格式:DOCX
- 页数:25
- 大小:150.28KB
统计案例分析大学生月平均生活费的估计和检验.docx
《统计案例分析大学生月平均生活费的估计和检验.docx》由会员分享,可在线阅读,更多相关《统计案例分析大学生月平均生活费的估计和检验.docx(25页珍藏版)》请在冰点文库上搜索。
统计案例分析大学生月平均生活费的估计和检验
.
统计案例分析
案例2.1大学生月平均生活费的估计和检验
姓名:
覃玉冰
学号:
班级:
16应用统计
一、数据
为了了解大学生日常生活费支出及生活费来源状况,对中国人民大学在校本科生的月生活费支出问题进行了抽样调查。
该问卷随机抽取中国人民大学大一、大二、大三、大四在校本科生男女各30多人作为样本。
调查采取分层抽样,对在校本科生各个年级男生、女生各发放问卷30多份,共发放问卷300份,回收问卷291份,其中有效问卷共272份。
其中,男生的有效问卷为127份,女生为145份。
调查得到的部分数据见表一。
表一大学生月平均生活费支出的调查数据(仅截取部分)
性别
所在年级
家庭所在地区
平均月生活费(元)
性别
所在年级
家庭所在地区
平均月生活费(元)
男
1998级
大型城市
1000
女
1998级
大型城市
500
男
级1998
大型城市
800
女
级1998
大型城市
800
男
1998级
大型城市
1000
女
1998级
大型城市
500
男
级1998
中小城市
400
女
级1998
大型城市
1000
二、生活费支出的区间估计和假设检验
(一)平均月生活费的描述统计量
为了更好地研究全校本科学生平均月生活费支出,我们先来看一下样本数据中平均月生活费支出的一些描述统计量。
1/21
.
变量选择“平均月生活费”,选项描述→中,点分析→描述统计→在spss选择“均值、标准差、均值的标准误”,得到的样本数据中平均月生活费的描述统计量见表二。
平均月生活费的描述统计量表二
标准差均值N
统计量统计量统计量标准误
595.04平均月生活费272243.444
14.761
(列表状态)N有效的272
从表二可以看到,样本数据中平均月生活费支出的均值为595.04,标准差为243.444,均值的标准误为14.761.
(二)平均月生活费的假设检验
从表二中我们已经知道了样本数据中平均月生活费支出的均值为595.04,现在我们来检验一下全校本科学生即总体的月平均生活费支出是否等于500。
1.检验统计量的确定
样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。
现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,如果总体为正态分布,样本统计量服从正态分布:
如果总体为非正态分布,样本统计量也是渐进服从正态分布的。
所以在这种情况下,我们都可以把样?
已即在总体标准差z分布)。
本统计量视为正态分布,这时可以使用z统计量(知时,有
?
?
x0?
z?
/n?
是未知的,此时可以用样本标准差s代替,上式可而我们这里总体标准差以写为:
?
?
x0?
zs/n提出假设2.
H为:
全校本科学生月平均生活费支出u=500
原假设02/21
.
u=500备择假设为:
全校本科学生月平均生活费支出H13.spss操作及结果分析“平均月生活费”→检验变量选单样本T检验在spss中点分析→比较均值→”,得到的平均月生活费的假设检验的结果见表三。
→检验值填“500平均月生活费的假设检验的结果表三
有效的
检验值=500(列表状态)N145
t
df
Sig.(双侧)
均值差值
95%置信区间差分的
下限
上限
平均月生活费
6.438
271
.000
95.037
65.98
124.10
从表三可以看到,检验的P值接近于0,其小于0.05,根据小拒大接的原则,拒绝原假设,表面全校学生的月平均生活费支出与500元有显著差异。
(三)平均月生活费的区间估计
1.数学模型的建立
样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。
现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的
?
x,方差的抽样分布均为正态分布,其数学期望为总体均值条件下,样本均值2?
x经过标准化以后的随机变量服从标准正态分布,即为。
n
?
?
x~N(0,1)z?
?
n/?
?
置信水平下的置信区在由上式和正态分布的性质,可以得出总体均值-1间为
?
?
?
?
zx?
zx?
?
?
?
?
nn?
?
223/21
.
?
?
?
是事先所确称为置信上限;式中,称为置信下限,zzx?
x?
?
?
nn22?
定的一个概率值,也称为风险值,它是总体均值不包括在置信区间的概率;-1?
?
是总体均值的是标准正态分布右侧面积为称为置信水平;值;时的zz2?
n2?
标准误;是估计总体均值时的估计误差。
z?
n2但是由于样这里,我们并不知道全校本科学生的平均月生活费支出的方差,22?
代替,这时本数据的样本量较大,所以上式中的总体方差可以用样本方差s?
?
在置信水平下的置信区间可以写为:
总体均值-1ss?
?
z?
z,x?
x?
?
?
?
nn?
?
222.模型的求解s当风险为,样本均值的标准误由表二可知,样本均值为595.0414.761.n?
?
95%95%值时,全校学生月平均生活费支出的取0.05时,即置信水平取-1623到595.04+1.96*14.761]的置信区间为[595.04-1.96*14.761,,即566.11元之间。
三、男女学生的平均月生活费的假设检验
(一)男女学生的平均月生活费的描述统计量为了更好地研究全校本科男女学生的平均月生活费支出间是否有显著差异,我们先来看一下样本数据中男女学生的平均月生活费支出的一些描述统计量。
分组方式选“性别”勾选“比较组”中点数据在spss→拆分文件→→变量选择“平均月生活费”,选项选择“均值、→描述→描述统计然后点分析→标准差、均值的标准误”,得到的平均月生活费的描述统计量见表四。
表四男女学生平均月生活费的描述统计量4/21
.
标准差均值N
标准误统计量统计量性别统计量569.69平均月生活费男229.748
20.387
127
N(列表状态)有效的127
617.24平均月生活费女253.543
21.056
145
,从表四可以看到,样本数据中男生的平均月生活费支出的均值为596.69标准差为;女生的平均月生活费支出的均值为617.24.标准差为229.748。
单从样本数据中男女学生的平均月生活费支出的均值来看,全校本科253.543下面男女学生的平均月生活费支出间是有差异的,但是这只是我们主观的看法,我们用两个总体均值之差的假设检验来探究全校本科男女学生的平均月生活费支出间是否有显著差异。
(二)男女学生的平均月生活费间的假设检验检验统计量的确定1.
,说明两个总体30人,女学生有145人,均大于样本数据中男学生有127由可以证明的是,的样本量均较大,此时无论两个总体的分布是不是正态分布,
x?
x作为检验此时,两个独立样本算出来的的抽样分布都是服从正态分布的,21的计算公式为:
统计量z
?
?
))?
(?
?
(xx2111?
z22?
?
21?
nn2122?
?
?
?
,,式中,分别为两个总体的方差。
分别为两个总体的均值,2121这里,我们并不知道全校本科男学生和女学生的平均月生活费支出的方差,22SS,来替代总体方但是由于两个总体的样本量都较大,所以可以用样本方差2122?
?
,.此时,上式可以写为:
差215/21
.
?
?
)?
(?
(x?
x)2111?
z22ss21?
nn212.提出假设
?
?
H,即全校为:
全校本科男女学生月平均生活费支出之差原假设0-?
021本科男女学生的平均月生活费支出之间没有显著差别。
?
?
,即全备择假设为:
全校本科男女学生月平均生活费支出之差0H?
-211校本科男女学生的平均月生活费支出之间有显著差别。
3.spss操作及结果分析
在spss中点数据→拆分文件→勾选“分析所有个案,不创建组”,然后点分析→比较均值→独立样本T检验→检验变量选“平均月生活费”→分组变量选“性别编号”,定义组选择“使用指定值1和2”,得到的男女学生的平均月生活费间的假设检验的结果见表四。
男女学生的平均月生活费间的假设检验的结果表四
合计
方差方程的
Levene检验%
中的性别计数
均值方程的t检验100.0%
41.4%43.4%15.2%2728668118
F性别
Sig.%
中的
t31.6%
df
Sig.(双侧)25.0%
均值差值43.4%
标准误差值
95%差分的置信区间100.0%
下限
上限
差设方平均月生假相等活费差方假设不相等
.484
.487
-1.612-1.623
270269.679
.108.106
-47.556-47.556
29.50029.308
-105.635-105.258
10.52310.145
从表四可以看出,当原假设是男女学生的平均月生活费的方差相等时,检验所对应的P值是0.487,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明方差是不相等的,故我们看假设方差相等时的假设检验的结果就可以了。
从假设方差相等时的假设检验的结果上来看,检验的P值为0.108,其大于6/21
.
即没有证据表明男女学生的月平不能拒绝原假设,0.05,根据小拒大接的原则,均生活费支出之间有显著差异。
四、估计乡镇地区学生的比例
(一)对学生按性别和来源进行分类汇总为了估计乡镇地区学生的比例,我们先对学生按性别和来源进行分类汇总,行选择“性别”,列选择“家庭所在地→→交叉表在spss中点分析→描述统计单元格中的百分比勾选“行”,得到如表五所示的汇总表。
区”→按性别和家庭所在地区进行的分类汇总表五
家庭所在地区
乡镇地区中小城市大型城市合计
性别计数男127264655
%
性别中的100.0%20.5%36.2%43.3%
计数女145602263
从表五可以看到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。
(三)乡镇地区学生比例的区间估计
1.数学模型的建立
样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。
由样本比例的抽样分布可知,当样本量足够大时,比例的抽样分布可用正态分pp?
?
)1?
(2?
?
。
样本比例经标准的方差为;的数学期望为布近似。
?
pp?
(p)E
pn化后的随机变量则服从标准正态分布,即
?
?
p~N(0,1)?
z?
?
)/1(?
n7/21
.
?
,的基础上加减估计误差与总体均值的区间估计类似,在样本比例zp?
p2?
?
即得总体比例置信水平下的置信区间为:
在-1?
?
?
?
?
?
))?
1?
(1(z?
?
pzp?
?
?
?
nn22?
?
?
?
但实际情况不然,值应该是已知的。
用上式计算总体比例的置信区间时,?
?
。
这时,总体比例的置值恰好是要估计的,所以,需要用样本比例来替代p信区间可表示为:
?
?
)pp(1?
p)(1?
pzp?
zp?
?
?
?
?
nn22?
?
)?
p(1?
p)pp(1?
z?
?
zpp称为置信下限,称为置信上限;式中,?
?
nn22)pp(1?
?
z值;是标准正态分布右侧面积为是显著性水平;是估时的zz2?
?
n22计总体比例时的估计误差。
2.模型的求解从表五可以得到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的为的95%置信区间乡本科学生中,镇学生比例的全25%。
所以校?
?
)25-0.10-.25)0.25(250.(1之间。
30.15%,即19.85%到?
-..025?
196?
0.251.96,?
?
272272?
?
五、单因素对月平均生活费支出的影响分析
(一)数学模型单因素方差分析1.
检验因素对试验结果有无单因素方差分析是指对单因素试验结果进行分析,显著性影响的方法。
单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。
在数据中,总误差反映全部观测数据的误差;处理误差(组间误差)是由于8/21
.
不同处理造成的误差,它反映了处理对观测数据的影响,因此称为处理效应;随机误差(组内误差)是由于随机因素造成的误差,也简称为误差。
数据的误差用平方和表示,记为SS。
其中总平方和记为SST,其计算公式为:
ln?
?
2)?
SST?
y(yij1?
i?
1j它反映全部数据总误差大小的平方和。
处理平方和记为SSA,其计算公式为:
l?
2)yn(y?
SSA?
ii1?
i它反映处理误差大小的平方和,也称为组间平方和。
误差平方和记为SSE,其计算公式为:
ln?
?
2)ySSE?
(y?
iij1?
i?
1它反映了随机误差大小的平方和,也称为组内平方和
误差平方和的分解及其关系所图一所示
误差平方和的分解及其关系图一方差分析的基本原理就是要分析数据的总误差中有没有处理误差。
如果处理对观测数据没有显著影响,意味着没有处理误差。
这时,每种处理所对应的总体均值应该相等,如果存在处理误差,每种处理所对应的总体均值至少有一对不相等。
在只考虑一个因素的情况下,方差分析也就是要检验下面的假设:
9/21
.
?
?
?
?
?
?
?
?
H:
?
?
?
k102i不全相等k),2,,H:
(i1?
?
?
i1并不意味着所有拒绝原假设,只表明至少有两个总体的均值不相等,注意:
的均值都不相等。
2.多重比较通过对总体均值之间的配对比较多重比较的作用是在拒绝原假设的条件下,Fisher的来进一步检验到底哪些均值之间存在差异。
多重比较方法有多种,如方法等。
Tukey-Kramer的HSDLSD方法、的缩写,该检验difference)是最小显著差异(leastsignificant其中LSD的最小显著差异方法,Fisher方法是由统计学家Fisher提出来的,因此也称为的适用场合是:
如果研究者在事先就已经计划好要对某对或LSDLSD方法。
简称都要进,拒绝或不拒绝原假设)某几对均值进行比较,不管方差分析的结果如何(方法进行多重我们在下面的操作中都是用LSD行比较,这时适合采用LSD方法。
比较的。
(二)年级对月平均生活费支出的影响分析现在我们来探究年级对不同年级的学生的月平均生活费支出可能有所不同,学生的月平均生活费支出是否有显著的影响。
方差分析中有三个基本假定:
)每个总体都应服从正态分布。
也就是说,对于因素的每一个水平,其(1观测值是来自正态分布总体的简单随机样本。
)各个总体的方差必须相同。
也就是说,各组观察数据是从具有相同方2(差的正态总体中抽取的。
)观测值是独立的(3多个学生,样本量比较大,故对于因素的每一个每个年级各抽取了60由于抽其观测值均可以认为近似服从正态分布,所以满足了第一个假定。
水平,取四个年级的学生是独立进行的,所以可以认为四组样本观测值是相互独立的,故我们在做方对于第二个假定,我们需要进一步的验证,即满足了第三个假定。
差分析时要顺带做一下方差齐性检验。
,“平均月生活费”因变量选择一般线性模型→→单变量→中点分析在spss两两比较中的两两比较检验选择“所在年级”,假→固定因子选择“所在年级”选项中勾选“方差齐性检验”,得到的年级对月平均”定方差齐性选择“LSD→10/21
.
生活费支出的影响分析结果如表六、表七和表八所示。
表六年级对支出影响的方差齐性检验
因变量:
平均月生活费
Fdf1
df2
Sig.
.977268
.068
3
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+所在年级
从表七可以看出,方差齐性检验的P值为0.977,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。
表七年级对支出影响的方差分析表
因变量:
平均月生活费
III型平方均FSig.df
校正模.73825126.03775378.11.4213
截.0001462.896
87257473.26987257473.2691
.73所在年.421
375378.11225126.037
误59647.095
15985421.521
268
总2721.124E8
校正的总271
16060799.632
a.R=.00(调R=-.00
从表七可以看到,方差分析检验的P值为0.738,大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即认为没有证据表明年级对生活费支出有显著影响。
11/21
.
年级对支出影响的多重比较表八
平均月生活费
LSD
(I)所在年级(J)所在年级
均值差值(I-J)
标准误差
Sig.
95%置信区间
下限
上限
1999级1998级级20002001级因变量
-15.6924.4617.68:
平均月生活费
48.16245.75749.689
.745.593.722
-110.52-65.63-80.15
79.13114.55115.51
1999级级19982000级级2001
15.6940.1533.38
48.16237.82842.500
.745.289.433
-79.13-34.33-50.30
110.52114.63117.06
19982000级级级19992001级
-24.46-40.15-6.77
45.75737.82839.753
.593.289.865
-114.55-114.63-85.04
65.6334.3371.50
1998级2001级级1999级2000
-17.68-33.386.77
49.68942.50039.753
.722.433.865
-115.51-117.06-71.50
80.1550.3085.04
基于观测到的均值。
(误差项为均值方错误)=59647.095。
从表七可以看到,在多重比较中,检验的各P值均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,这表明各年级之间的月平均生活费支出之间没有显著差异。
(三)地区对月平均生活费支出的影响分析
不同地区的学生的月平均生活费支出可能有所不同,现在我们来探究地区对学生的月平均生活费支出是否有显著的影响。
从表五可以看出,每个地区所抽取的样本量都比较大,故对于因素的每一个
12/21
.
水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。
由于抽取三个地区的学生是独立进行的,所以可以认为三组样本观测值是相互独立的,即满足了第三个假定。
对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。
在spss中点分析→一般线性模型→单变量→因变量选择“平均月生活费”,固定因子选择“家庭所在地区”→两两比较中的两两比较检验选择“家庭所在地区”,假定方差齐性选择“LSD”→选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表九、表十和表十一所示。
表九地区对支出影响的方差齐性检验
Fdf1
df2
Sig.
.279269
2
1.282
检验零假设,即在所有组中因变量的误差方差均相等。
a.设计:
截距+家庭所在地区
从表九可以看出,方差齐性检验的P值为0.279,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。
表十地区对支出影响的方差分析表
因变量:
平均月生活费
源
III型平方和
df
均方
F
Sig.
校正模型截距家庭所在地区误差总计校正的总计
a391308.71689252281.148391308.71615669490.9171.124E816060799.632
212269272271
195654.35889252281.148195654.35858250.896
3.3591532.2043.359
.036.000.036
13/21
.
平均月生活费因变量:
源
型平方和III
df
均方
F
Sig.
校正模型截距家庭所在地区误差总计校正的总计
a391308.71689252281.148391308.71615669490.9171.124E816060799.632
212269272271
195654.35889252281.148195654.35858250.896
3.3591532.2043.359
.036.000.036
=.017)R方a.R方=.024(调整
,根,小于显著性水平0.05P值为0.036从表十可以看到,方差分析检验的即有证据表明地区对生活费支出有显著影据小拒大接的原则,应该拒绝原假设,响。
地区对支出影响的多重比较表十一
平均月生活费LSD:
平均月生活费因变量Sig.df2
Fdf1
家庭所在地区(I)(J)家庭所在地区.698检验零假设,
均值差值(I-J)5即在所有组中因变量的误差方差均相
标准误差266
Sig..625
置信区间95%
下限
上限
大型城市乡镇地区中小城市等。
a.设计:
*85.12-4.11截距+家庭所在地区
39.16634.220+性别
.031.905
8.01-71.48
162.2363.26
乡镇地区大型城市中小城市
*-85.12*-89.23
39.16636.746
.031.016
-162.23-161.58
-8.01-16.89
中小城市大型城市乡镇地区
4.11
*89.23
34.22036.746
.905.016
-63.2616.89
71.48161.58
14/21
.
基于观测到的均值。
。
)=58250.896误差项为均值方(错误级别上较显著。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 案例 分析 大学生 月平均 生活费 估计 检验