统计专业实验期末总报告.docx
- 文档编号:14632174
- 上传时间:2023-06-25
- 格式:DOCX
- 页数:17
- 大小:90.78KB
统计专业实验期末总报告.docx
《统计专业实验期末总报告.docx》由会员分享,可在线阅读,更多相关《统计专业实验期末总报告.docx(17页珍藏版)》请在冰点文库上搜索。
统计专业实验期末总报告
统计学基础实验分析报告
实验项目
综合练习
实验日期
2015.12.13
实验地点
80608
实验目的
熟练运用SPSS软件相关功能
实验内容
影响国内旅游总花费增长的主要因素可能有:
人口,旅行社的发展情况,城市公共交通运营状况,农村居民家庭人均纯收入,城镇居民家庭人均可支配收入,城乡居民储蓄存款。
收集数据对此进行分析。
实验步骤
收集数据。
数据文件的预处理。
单样本的t检验。
配对样本的t检验。
相关分析。
曲线估计。
两个独立样本的t检验。
实验结果
1、单样本的t检验
单个样本统计量
N
均值
标准差
均值的标准误
农村居民家庭人均纯收入(元)
15
2638.947333
953.5550472
246.2068545
图1-1
单个样本检验
检验值=2500
t
df
Sig.(双侧)
均值差值
差分的95%置信区间
下限
上限
农村居民家庭人均纯收入(元)
.564
14
.581
138.9473333
-389.113851
667.008517
图1-2
图1-1是15位农村居民家庭人均纯收入的描述性分析,包含的统计量有:
样本量N=15,平均存款金额2638.947333千元,标准差
=953.5550472,均值的标准误差
=246.2068545。
图1-2的单个样本的检验结果是:
t检验统计量:
-0.564;自由度df=N-1:
14;
双侧概率P值(sig)=0.581。
概率P值大于显著性水平
=0.05,不应拒绝原假设,即农村居民家庭人均纯收入的平均收入与2500在95%的置信度下不存在显著性差异。
农村居民家庭人均纯收入的平均收入在95%的置信度下的置信区间为:
[2500-389.1138,2500+667.0085]=[2110.8862,3167.0085]。
2、配对样本的t检验
成对样本统计量
均值
N
标准差
均值的标准误
对1
农村居民家庭人均纯收入(元)
2638.947333
15
953.5550472
246.2068545
城镇居民家庭人均可支配收入(元)
7974.180000
15
3628.6409434
936.9110629
图2-1
成对样本相关系数
N
相关系数
Sig.
对1
农村居民家庭人均纯收入(元)&城镇居民家庭人均可支配收入(元)
15
.991
.000
图2-2
成对样本检验
成对差分
t
df
Sig.(双侧)
均值
标准差
均值的标准误
差分的95%置信区间
下限
上限
对1
农村居民家庭人均纯收入(元)-城镇居民家庭人均可支配收入(元)
-5335.2326667
2686.2335143
693.5825110
-6822.8192032
-3847.6461301
-7.692
14
.000
图2-3
图2-1是配对样本T检验的基本描述性统计分析,包括:
均值、样本容量、标准差和均值标准误差。
从两对样本的均值变化可以看出:
二者的均值不完全相等,其离散程度也不完全相同。
图2-2是两配对样本T检验的相关分析,包括相关系数和检验的概率P值。
这两个变量的相关系数=0.991,根据直观的分析,说明二者具有线性相关。
对相关系数进行显著性检验,其概率P值=0.000,小于显著性水平0.05,接受原假设,即认为农村居民家庭人均纯收入与城镇居民家庭人均可支配收入具有线性关系。
图2-3是两配对样本T检验的主要结果分别是:
两配对样本的平均差值:
农村居民家庭人均纯收入-城镇居民家庭人均可支配收入平均差-5335.2326667;
差值的标准差为2686.2335143;
差值的均值标准误差为693.5825110;
置信度为95%的差值的置信区间为[-6822.8192032,-3847.6461301];
t统计量-7.692;自由度为14;
双侧概率P值=0.000,小于显著性水平0.05,拒绝原假设,即:
二者有显著性差异。
3、相关分析
图3-1
相关性
国内旅游总花费(亿元)
城镇居民家庭人均可支配收入(元)
国内旅游总花费(亿元)
Pearson相关性
1
.992**
显著性(双侧)
.000
N
15
15
城镇居民家庭人均可支配收入(元)
Pearson相关性
.992**
1
显著性(双侧)
.000
N
15
15
**.在.01水平(双侧)上显著相关。
图3-2
相关性
国内旅游总花费(亿元)
旅行社数量(个)
国内旅游总花费(亿元)
Pearson相关性
1
.957**
显著性(双侧)
.000
N
15
15
旅行社数量(个)
Pearson相关性
.957**
1
显著性(双侧)
.000
N
15
15
**.在.01水平(双侧)上显著相关。
图3-3
相关性
控制变量
国内旅游总花费(亿元)
城镇居民家庭人均可支配收入(元)
旅行社数量(个)
国内旅游总花费(亿元)
相关性
1.000
.904
显著性(双侧)
.
.000
df
0
12
城镇居民家庭人均可支配收入(元)
相关性
.904
1.000
显著性(双侧)
.000
.
df
12
0
图3-4
从散点图3-1可以看出:
国内旅游总花费与城镇居民人均可支配收入具有与相关性。
图3-2中两相关变量(国内旅游总花费与城镇居民人均可支配收入)的Pearson相关系数=0.992>0,表示呈正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性)即国内旅游总花费与城镇居民人均可支配收入之间的相关性显著。
图3-3中两相关变量(国内旅游总花费与旅行社个数)的Pearson相关系数=0.957>0,表示呈正相关;相关系数检验对应的概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性)即国内旅游总花费与旅行社个数之间的相关性显著。
图3-4两相关变量(国内旅游总花费与城镇居民人均可支配收入)的偏相关系数=0.904,呈正相关;对应的偏相关系数双侧检验概率P值=0.000,小于显著性水平0.05,应拒绝原假设(两变量之间不具有相关性)即国内旅游总花费与城镇居民人均可支配收入之间的相关性显著。
不过,与国内旅游总花费与城镇居民人均可支配收入的相关分析比较:
身高与肺活量的Pearson相关系数=0.992,相关系数检验对应的概率P值=0.000。
说明控制变量(旅行社个数)使得国内旅游总花费与城镇居民人均可支配收入的相关性降低。
4、曲线估计
图4-1
模型汇总和参数估计值
因变量:
城镇居民家庭人均可支配收入(元)
方程
模型汇总
参数估计值
R方
F
df1
df2
Sig.
常数
b1
b2
b3
二次
.973
219.526
2
12
.000
1272371.993
-20.838
8.559E-005
三次
.975
236.630
2
12
.000
398947.937
.000
-8.001E-005
4.384E-010
复合
.960
310.522
1
13
.000
.011
1.000
幂
.955
276.035
1
13
.000
7.536E-065
13.320
自变量为年底总人口(万人)。
图4-2
图4-3
三次
模型汇总
R
R方
调整R方
估计值的标准误
.988
.975
.971
616.341
自变量为年底总人口(万人)。
图4-4
ANOVA
平方和
df
均方
F
Sig.
回归
179779978.692
2
89889989.346
236.630
.000
残差
4558512.659
12
379876.055
总计
184338491.351
14
自变量为年底总人口(万人)。
图4-5
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年底总人口(万人)**2
-8.001E-005
.000
-22.838
-7.133
.000
年底总人口(万人)**3
4.384E-010
.000
23.768
.
.
(常数)
398947.937
59805.037
6.671
.000
图4-6
复合
模型汇总
R
R方
调整R方
估计值的标准误
.980
.960
.957
.092
自变量为年底总人口(万人)。
图4-7
ANOVA
平方和
df
均方
F
Sig.
回归
2.617
1
2.617
310.522
.000
残差
.110
13
.008
总计
2.727
14
自变量为年底总人口(万人)。
图4-8
系数
未标准化系数
标准化系数
t
Sig.
B
标准误
Beta
年底总人口(万人)
1.000
.000
2.664
166825.411
.000
(常数)
.011
.008
1.312
.212
因变量为ln(城镇居民家庭人均可支配收入(元))。
图4-9
从散点图4-1可以看出,年底总人口和城镇居民家庭人均可支配收入呈明显的曲线关系,而不是线性关系。
因此,我们考虑曲线估计。
图4-2是曲线模型的拟合优度检验:
从拟合优度来看:
四种曲线的拟合优度都较高,其中三次曲线模型最高(
=0.975)、二次曲线模型其次(
=0.973)、复合模型
=0.960,最后是幂函数曲线模型
=0.955。
再结合曲线的简单性,可以首选三次曲线模型或二次曲线模型。
又二次曲线模型中的年度的回归系数(
=-20.838)为负值,与实际不符,应该舍去。
图4-3是从图形直观展示各种模型与观测值的拟合程度。
从拟合优度的检验可知,二次曲线模型是不恰当的。
三次曲线模型、复合曲线模型可选。
图4-4是三次曲线模型的拟合优度检验。
=0.975
图4-5是三次曲线模型的整体性检验。
对应的概率P值=0.00,小于显著性水平0.05,拒绝原假设。
表示建立的三次曲线模型是恰当的。
图4-6是三次曲线模型的回归系数检验。
回归系数
对应的概率P值为0.000,都小于显著性水平0.05,拒绝原假设。
说明回归系数
不显著。
可见三次曲线模型不适用。
图4-7是复合曲线模型拟合优度检验。
=0.960
图4-8是复合曲线模型的整体性检验。
对应的概率P值=0.000,小于显著性水平0.05,拒绝原假设。
表示建立的复合曲线模型是恰当的。
图4-9是复合曲线模型的回归系数检验。
回归系数
、
对应的概率P值分别为0.212、0.000,
对应的概率P值大于显著性水平0.05,拒绝原假设。
说明回归系数
不显著。
复合曲线模型不合理。
5、两个独立样本的t检验
组统计量
户口
N
均值
标准差
均值的标准误
收入
农村
15
2638.947333
953.5550472
246.2068545
城镇
15
7974.180000
3628.6409434
936.9110629
图5-1
图5-2
独立样本检验
方差方程的Levene检验
均值方程的t检验
F
Sig.
t
df
Sig.(双侧)
均值差值
标准误差值
差分的95%置信区间
下限
上限
收入
假设方差相等
16.287
.000
-5.508
28
.000
-5335.2326667
968.7208860
-7319.5674480
-3350.8978854
假设方差不相等
-5.508
15.924
.000
-5335.2326667
968.7208860
-7389.6218395
-3280.8434939
图5-1是关于两独立样本T检验的基本描述统计量。
图5-2是关于两独立样本T检验的检验结果:
首先,利用F检验对两总体方差是否相等的检验:
Levene检验的F值=16.287,对应的P值(sig)=0.000;概率P值小于显著性水平
=0.05;应拒绝原假设,即:
两总体(城镇和农村户口的收入)方差不相等,没有通过Levene方差齐性检验。
其次,利用t检验对两总体均值差是否存在显著性差异的检验:
t统计量的值=-5.508;对应的双侧概率P值(sig)=0.000;概率P值小于显著性水平
=0.05;拒绝原假设,即:
两总体均值差(城镇和农村户口的平均收入差)存在显著性差异。
两个总体均值差(城镇和农村户口的平均收入差)的置信度为95%的置信区间为[-7319.5674480,-3350.8978854],该置信区间不包含0,也说明两总体均值差存在显著性差异。
自由度df=298(=15+15-2);t统计量的分子——两个总体均值差的均值=-5335.233(=2638.947333-7974.180000);t统计量的分母——两个总体均值差的标准误差。
实验分析
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 专业 实验 期末 报告
![提示](https://static.bingdoc.com/images/bang_tan.gif)