应用统计分析复习要点剖析.docx
- 文档编号:18044176
- 上传时间:2023-08-07
- 格式:DOCX
- 页数:14
- 大小:956.81KB
应用统计分析复习要点剖析.docx
《应用统计分析复习要点剖析.docx》由会员分享,可在线阅读,更多相关《应用统计分析复习要点剖析.docx(14页珍藏版)》请在冰点文库上搜索。
应用统计分析复习要点剖析
《应用统计学》复习要点
(要求:
每人携带具有开方功能的计算器)
一、名词解释
1.统计学
收集、处理、分析、解释数据并从数据中得出结论的科学。
2.方差分析
方差分析是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。
3.假设检验
假设检验是事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。
分为参数假设检验和非参数假设检验。
一般采用逻辑上的反证法,依据统计上的小概率原理。
4.置信区间
置信区间是指由样本统计量所构造的总体参数的估计区间。
在统计学中,一个概率样本的置信区间(Confidenceinterval)是对这个样本的某个总体参数的区间估计。
置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。
5.置信水平
置信水平是指总体参数值落在样本统计值某一区内的概率。
6.抽样分布
抽样分布:
从已知的总体中以一定的样本容量进行随机抽样,由样本的统计数所对应的概率分布称为抽样分布。
抽样分布是统计推断的理论基础。
7.方差分析
方差分析是通过分析数据的误差判断各总体均值是否相等,研究分类型自变量对数值型因变量的影响,分为单因素方差分析和双因素方差分析。
8.相关分析
相关分析(correlationanalysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
9.推断统计
推断统计是研究如何利用样本数据来推断总体特征的统计方法。
包含两个内容:
参数估计,即利用样本信息推断总体特征;假设检验,即利用样本信息判断对总体的假设是否成立。
二、计算题
1.在某地区随机抽取120家企业,按照利润额进行分组后结果如下:
按利润额分组(万元)
企业数(个)
300以下
19
300~400
30
400~500
42
500~600
18
600以上
11
合计
120
计算120家企业利润额的平均数和标准差(注:
第一组和最后一组的组距按相邻组计算)。
解答:
2.某银行为缩短顾客到银行办理业务等待的时间,准备了两种排队方式进行试验。
为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:
分钟)如下:
5.5
6.6
6.7
6.8
7.1
7.3
7.4
7.8
7.8
(1)计算第二种排队时间的平均数和标准差。
(2)比较两种排队方式等待时间的离散程度。
(3)如果让你选择一种排队方式,你会选择哪一种?
试说明理由。
3.某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:
小时),得到的数据如下:
3.3
3.1
6.2
5.8
2.3
4.1
4.4
2.0
5.4
2.6
6.4
1.8
2.1
1.9
1.2
5.1
4.3
4.2
4.7
1.4
1.2
2.9
3.5
2.4
5.4
3.6
4.5
0.8
3.2
1.5
3.5
0.5
5.7
3.6
2.3
2.5
求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。
(注:
z(0.1)、z(0.05)和z(0.01)统计量值分别为1.65、1.96和2.58)
4.利用下面的信息,构建总体均值μ的置信区间。
(1)总体服从正态分布,且已知σ=500,n=15,
=8900,置信水平为95%。
(注:
z统计量值为1.96)
(2)总体不服从正态分布,且已知σ=500,n=35,
=8900,置信水平为95%。
(注:
z统计量值为1.96)
(4)总体不服从正态分布,σ未知,n=35,
=8900,s=500,置信水平为90%。
(注:
z统计量值为1.65)
(5)总体不服从正态分布,σ未知,n=35,
=8900,s=500,置信水平为99%。
(注:
z统计量值为2.58)
5.对消费者的一项调查表明,17%的人早餐饮料是牛奶。
某城市的牛奶生产商认为,该城市的人早餐饮用牛奶的比例更高。
为验证这一说法,生产商随机抽取550人的一个随机样本,其中115人早餐饮用牛奶。
在α=0.05的显著性水平下,检验该生产商的说法是否属实?
(注:
z统计量值为1.96)
6.一项包括了200个家庭的调查显示,每个家庭每天看电视的平均时间为7.25小时,标准差为2.5小时。
据报道,10年前每天每个家庭看电视的平均时间是6.7小时。
取显著性水平α=0.01,这个调查能否证明“如今每个家庭每天收看电视的平均时间增加了”?
(注:
z统计量值为1.96)
7.下面是7个地区2000年的人均国内生产总值GDP(Y)和人均消费水平(X)的统计数据(注:
此题对应的t统计量值为2.57):
地区
人均GDP(千元)Y
人均消费水平(千元)X
Y-E(Y)
X-E(X)
(Y-E(Y))
×(X-E(X))
(X-E(X))2
(Y-E(Y))2
北京
22.460
7.326
10.212
2.810
28.699
7.899
104.276
辽宁
11.226
4.490
-1.022
-0.026
0.026
0.001
1.045
上海
34.547
11.546
22.299
7.030
156.769
49.427
497.226
江西
4.851
2.396
-7.397
-2.120
15.679
4.493
54.722
河南
5.444
2.208
-6.804
-2.308
15.702
5.325
46.300
贵州
2.662
1.608
-9.586
-2.908
27.873
8.454
91.900
陕西
4.549
2.035
-7.699
-2.481
19.099
6.153
59.281
合计∑
85.739
31.609
263.847
81.751
854.751
(1)计算相关系数,说明二者之间的关系。
(2)人均GDP作自变量,人均消费水平作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(3)计算判定系数和估计标准误差,并解释其意义。
(4)检验回归方程线性关系的显著性。
(α=0.05)
(5)如果某地区的人均GDP为5千元,预测其人均消费水平。
某地区的人均GDP为5000元,预测其人均消费水平为2278.10657元
(6)求人均GDP为5千元时,人均消费水平95%的置信区间和预测区间。
人均GDP为5000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399],预测区间为[1580.46315,2975.74999]。
8.随机抽取7家超市,得到其广告费支出(X)和销售额(Y)数据如下:
(注:
此题对应的t统计量值为2.57)
超市
销售额
(万元)Y
广告费支出(万元)X
Y-E(Y)
X-E(X)
(Y-E(Y))
×(X-E(X))
(X-E(X))2
(Y-E(Y))2
A
19
1
-23
-7.143
164.286
51.020
529
B
32
2
-10
-6.143
61.429
37.735
100
C
44
4
2
-4.143
-8.286
17.163
4
D
40
6
-2
-2.143
4.286
4.592
4
E
52
10
10
1.857
18.571
3.449
100
F
53
14
11
5.857
64.429
34.306
121
G
54
20
12
11.857
142.286
140.592
144
合计∑
294
57
447
288.857
1002
1计算相关系数,说明二者之间的关系。
r=63.86/(6.424*11.964)=0.831
⑵广告费用支出作自变量,销售额作因变量,利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
3计算判定系数和估计标准误差,并解释其意义。
4检验回归方程线性关系的显著性。
(α=0.05)
5如果某超市的广告费用支出为5万元,预测其销售额。
据此进行计算(x为广告费)=37.1364
6求广告费用支出为5万元时,超市销售额95%的置信区间和预测区间。
三、论述题
1.简述样本量与置信水平、总体方差、估计误差的关系。
1.估计总体均值时样本量n为
2.样本量n与置信水平1-α、总体方差
、估计误差E之间的关系为
▪与置信水平成正比,在其他条件不变的情况下,置信水平越大,所需要的样本量越大;
▪与总体方差成正比,总体的差异越大,所要求的样本量也越大;
▪与与总体方差成正比,样本量与估计误差的平方成反比,即可以接受的估计误差的平方越大,所需的样本量越小。
2.简述评价估计量的三个标准。
(15分)
1、无偏性:
估计量抽样分布的数学期望等于被估计的总体参数
2、有效性:
对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效
3、一致性:
随着样本量的增大时,点估计量的值越来越接近被估总体的参数。
3.简要说明残差分析在回归分析中的作用。
(15分)
残差是因变量的观测值y与根据估计的回归方程求出的预测值之差,它反映了用估计的回归方程去预测y而引起的误差。
4.简要误差分解的概念和基本原理。
(15分)
1.误差概念:
精确值与近似值之差称为误差,也叫绝对误差。
2.产生误差的主要原因
①模型误差:
在解决实际问题时,在一定条件下抓住主要因素将现实系统理想化的数学描述称为实际问题的数学模型,这种数学描述常常是近似的,数学模型与实际系统之间存在误差,这种误差称为模型误差。
②观测误差:
数学模型中往往含有一些由观测得到的物理量(如温度、电阻、长度)或由物理量估算出的模型参数,这些观测物理量或模型参数常常与实际数据存在误差。
这种由观察产生的误差称为观测误差。
③截断误差:
数值计算中用有限运算近似代替无穷过程产生的误差。
例如计算一个无穷次可微函数的函数值时,理论上只要能算出这个函数的泰勒级数值即可,但是实际工程上仅用泰勒级数中前面有限项来近似计算函数值,而舍去高阶无穷小量。
这个被舍的高阶无穷小量正是截断误差。
④舍入误差:
计算中按四舍五入进行舍入而引起的误差或因计算机字长有限,数据在内存中存放时进行了舍入而引起的误差。
误差分解指一个误差分配到几个变量上,这几个变量的误差各是多少。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 统计分析 复习 要点 剖析