统计学原理与实务 徐静霞.docx
- 文档编号:12762242
- 上传时间:2023-06-07
- 格式:DOCX
- 页数:27
- 大小:161.58KB
统计学原理与实务 徐静霞.docx
《统计学原理与实务 徐静霞.docx》由会员分享,可在线阅读,更多相关《统计学原理与实务 徐静霞.docx(27页珍藏版)》请在冰点文库上搜索。
统计学原理与实务徐静霞
思考与练习
一、思考题
1、分类数据的图示方法,其中包括条形图、Pareto图、对比条形图和饼图等。
顺序数据除了上文提到的条形图、pareto图、对比条形图、饼图之外还可以借助累积频数分布图和环形图来进行描述。
2、条形图、饼图、环形图、累积分布图、直方图、茎叶图、箱形图、散点图、线图、三维散点图、气泡图、雷达图等。
3、数据分组按照分组标志的不同可以分为单变量值分组和组距分组两种。
根据组距不同还可以分为等距分组和不等距分组。
4、分组和编制频数分布表的具体步骤如下:
第1步:
排序。
将变量按照一定的大小顺序进行排序,通常是由小至大的递增顺序,使用计算机软件进行整理时此步可以忽略。
第2步:
确定组数。
一般与数据本身的特点及数据的多少有关。
由于分组的目的之一是为了观察数据分布的特征,因此组数的多少应适中。
如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律.组数的确定应以能够显示数据的分布特征和规律为目的。
一般情况下,一组数据所分的组数K不应少于5组且不多于15组,即5<K<15。
在实际分组时,也可以借助经验公式来确定组数K,
其中n为数据的个数,对结果四舍五入取整数即为组数。
第3步:
确定各组的组距。
在组距分组中,一个组的最小值称为下限(lowlimit);一个组的最大值称为上限(upperlimit),组距(classwidth)是一个组的上限与下限的差。
组距可根据全部数据的最大值和最小值及所分的组数来确定,即,
组距=(最大值-最小值)/组数.
5、饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例,对于研究结构性问题十分有用。
环形图中间有一个“空洞",样本或总体中的每一部分数据用环中的一段表示.饼图只能显示一个总体和样本各部分所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环.因此环形图可显示多个总体或样本各部分所占的相应比例,从而有利于进行比较研究。
6、直方图与条形图是不同的,首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。
其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列.最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
7、茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息.而直方图虽然能很好地显示数据的分布,但不能保留原始的数值。
在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。
8、统计图一般由下面几个部分构成:
(1)标题,即图的名称,简明扼要说明资料的中心内容,必要时注明时间和地点,一般写在图的正下方位置,同时将图形的编号写在标题的前面。
(2)标目,分为纵标目与横标目,分别表示纵轴与横轴数字刻度的意义,一般注明度量衡单位。
(3)点线条面,借以用来显示数据的元素,这是图形的主体部分,用于显示数据和展示数据的规律和关系。
(4)刻度,指在纵轴或横轴上的坐标.(5)图例,其目的是为了使读者能区分统计图中各种图形的意义。
9、一般用“图优性(Graphicalexcellency)”来描述一个好的统计图。
“图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的空间里,给观众最多的思想。
一张好的图形应包括如下基本特性:
显示数据,集中反映图形的内容,避免歪曲,数据之间可进行有效比较,目的明确且唯一,统计描述和文字说明清晰。
10、常见的统计表一般由4个主要部分组成,即表头、行标题、列标题和数据,此外,必要时可以在统计表的下方加上表外附加说明。
11、在具体编制统计表时,应当遵循以下几点规则:
(1)统计表的结构要合理,内容要简练,形式要美观.比如行标题、列标题、数字资料的位置应安排合理。
如果有合计一项,一般放在最后一行或最后一列。
有时,由于强调的问题不同,行标题和列标题可以互换,但应使统计表的横竖长度比例适当,避免出现过高或过长的表格形式。
(2)统计表一般使用“三线表”的形式,如表3—24所示,表的上下两端横线一般用粗线条绘制,用细线把行标题和数字资料进行分离,统计表的左右两端不封口。
这样使人看起来清楚、醒目、美观。
如果数据关系复杂,单靠三条线是不够的,在这种情况下,数据资料也可用横线或竖线对数据资料进行分开,以表明数据的隶属关系,但必须用细线,总之表中尽量少用横竖线。
(3)表头一般应包括表号、总标题和表中数据的单位等内容.总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间(When)、地点(Where)以及何种数据(What),即标题内容应满足3W要求。
如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各变量的计量单位不同,则应放在每个变量后或单列出一列标明。
(4)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一.当数字因小可略而不计时,可写上“0";当缺某项数字资料时,可用符号“…”表示;不应有数字时用符号“一”表示,一张填好的统计表不应出现空白单元格.
(5)在绘制统计表时,为保证统计资料的科学性与严肃性,在统计表下,应注明资料来源,以表明表中数据的可靠性,或是方便读者查阅使用.必要时,也可在统计表下添加注解,以对变量或数据进行必要的解释和文字说明。
二、单项选择题
1—5CACCD6-10CBBBC11-15CDDBC
16-20CDDBB21—25BBBCB26-30ACABD
三、练习题
1、
(1)属于顺序数据
(2)
计数项:
成绩
成绩
汇总
A
B
C
D
E
8
25
26
15
6
总计
80
(3)
成绩
人数
累计
频率
A
8
8
0。
1
B
25
33
0.4125
C
26
59
0。
7375
D
15
74
0。
925
E
6
80
1
总计
80
80
1
(4)
2、
(1)
(2)正态分布
3、
(1)
接收
频率
累积%
接收
频率
累积%
49
5
10.00
79
15
30。
00
59
5
20.00
89
11
52。
00
69
10
40。
00
69
10
72.00
79
15
70.00
49
5
82.00
89
11
92.00
59
5
92.00
99
4
100。
00
99
4
100.00
合计
0
—
合计
0
-
(2)
(3)
VAR00001Stem-and—LeafPlot
FrequencyStem&Leaf
2.004。
13
3.004.667
3.005。
003
2。
005。
89
5。
006.01144
5。
006。
57799
7。
007.0001344
8。
007。
55666788
6.008.011344
5.008。
57789
3.009.022
1.009。
7
Stemwidth:
10。
00
Eachleaf:
1case(s)
4、
(2)
接收
频率%
累积%
接收
频率
累积%
69
4
4。
00
99
11
22。
00%
79
12
16.00
109
9
40.00%
89
16
32.00
89
8
56。
00%
99
18
54.00
119
7
70.00%
109
16
72.00
79
6
82.00%
119
14
86.00
129
4
90.00%
129
8
94.00
69
2
94.00%
139
4
98.00
139
2
98.00%
149
2
100。
00
其他
1
100。
00%
100
——
(3)
VAR00004Stem-and—LeafPlot
FrequencyStem&Leaf
2.006.89
6。
007.233566
8。
008。
01123456
11。
009.12224556788
9。
0010。
002466678
7.0011。
2355899
4。
0012。
4678
2.0013.24
1.0014。
1
Stemwidth:
10。
00
Eachleaf:
1case(s)
5、
(1)
VAR00003Stem-and—LeafPlot
FrequencyStem&Leaf
1。
0011。
6
2。
0012。
02
1.0012.8
2。
0013.04
2。
0013.56
2.0014.22
2。
0014。
78
。
0015。
1。
0015。
5
2.0016。
02
1。
0016.8
4。
0017.0233
Stemwidth:
100.00
Eachleaf:
1case(s)
6、
(1)
计数项:
时间
时间
汇总
7:
00
3
7:
30
4
8:
00
4
8:
30
7
9:
00
2
总计
20
(2)
7、
(1)、
(2)
8、
(1)
(2)
(3)
9、
(1)
接收
频率%
累积%
接收
频率%
累积%
29
10
10。
00
20-30
5
10.00
39
16
26.00
30-40
8
26.00
49
12
38。
00
40—50
6
38。
00
59
16
64。
00
50—60
13
64.00
69
20
84.00
60—70
10
84。
00
79
12
96.00
70-80
6
96.00
89
4
100.00
80—90
2
100.00
合计
100
-
合计
100
-
(2)
(3)
10、
(1)
(2)
11、
(1)
(2)
(3)
第四章
二、单项选择题
1—5CADBD6—10BCBDD11-15BACCC
16-20BBBCD21—25CDACC26-28DAA
三、计算分析题
4。
1
(1)首先将数据由小到大进行排列,中位数的位置为,即排在第7位的数值为中位数,即民生银行的营业收入为中位数,350。
17亿元。
平均数
(2)
即在第3个数值(145。
13)和第4个数值(176。
11)之间0.25的位置上,因此
(亿元)
即在第9个数值(1295。
31)和第10个数值(3340.37)之间0。
75的位置上,因此
(亿元)
(3)百分位数的位置
由于不是整数,百分位数的位置就是第个位置的数据的整数部分,则第30个百分位数是第4个数,即华夏银行的营业收入176.11亿元为第30个百分数。
(4)=1786.559(亿元),
4.2通常情况下,这种比赛对选手的打分是计算切尾均值,即同时集中平均数和中位数两种统计量的优点,且考虑到歌手B的得分中存在极端高分,故用切尾均值比较合适.
首先将歌手A的分数按升序整理为顺序统计量,得到
,,,,,,,,
7。
9,8。
1,8。
2,8。
3,8.5,8.6,8.6,8。
7,8.9
因为极端高分只有一个,因此去掉一个最高分,去掉一个最低分,取.
则歌手A的最后得分为:
歌手B的最后得分为:
由以上计算结果,可知歌手A的分数略高于歌手B.
4.3若按单利计算:
设本金为V,则该笔本金12年应得的利息总和=V(0.03×3+0。
05×1+0。
08×2+0。
1×3+0.15×1)=0。
75V
则平均年利率
若按复利计算:
则平均年利率
4.4已知(元),(元),
则(元)
因为,因此该公司职工月工资收入呈左偏分布。
4.5
(1)众数72和74.3
中位数的位置为
则中位数为排序后处于15位和16位的两个数值的平均数,即
平均数为
(2)
即在第7个数值(71。
2)和第8个数值(71.2)之间0.5的位置上,因此
(g/L)
即在第22个数值(75。
8)和第23个数值(75.9)之间0.5的位置上,因此
(g/L)
(3)众数72和74.3的频数均为4,故两种情况下异众比率均为
极差为
标准差
(4)用Excel求得偏态系数为-0。
013,峰态系数为-0.446。
(5)由于众数与平均数非常接近,可知数据分布应较为对称,又由于标准差数值较小,可知数据离散程度应不大。
这一点同时可由偏态系数-0.013和峰态系数-0.446得到印证,即女大学生血清总蛋白含量数据属轻微的左偏分布,同时略有扁平。
4。
6已知,,根据经验法则,有95.45%的年份里二氧化硫超标的天数在21~37天之间,有2.275%的年份里超标天数大于37天,有0。
00135%的年份里超标天数大于41天,有15。
865%的年份里超标天数少于25天。
4.7(元/人)
(元/人)
(元/人)
(元/人)
由以上计算可得:
(1)B企业的平均工资高于A企业的平均工资。
(2)由于,所以A企业的平均工资更具有代表性。
4。
8
(1)2008年粗钢产量的平均数(百万吨)
2008年粗钢产量的中位数的位置为,故中位数(百万吨)
(2)2009年粗钢产量的四分位数为
即为第3个数值,即(百万吨)
即为第9个数值,即(百万吨)
则2009年粗钢产量的四分位差为(百万吨)
2009年粗钢产量的平均数(百万吨)
因此2009年粗钢产量的标准差为
(百万吨)
(3)2008年粗钢产量的标准差为
(百万吨)
因此2008年中国、印度、俄罗斯和巴西的值分别为:
2009年中国、印度、俄罗斯和巴西的值分别为:
由以上计算结果可知,中国、俄罗斯、巴西三国的标准分数变数不大,而印度则有明显提高,因此印度粗钢产量的排名也由2008年的第5位上升到2009年的第3位。
4.9
(1)由20-30岁年龄组的分数计算离散系数为
由60-64岁年龄组的分数计算离散系数为
因此,60-64岁年龄组的分数差异较大.
(2)由于20—30岁年龄组的WAIS分数大致是正态分布,根据经验法则,可知20-30岁年龄组中有68。
27%的人分数在85~135之间。
(3)由于60—64岁年龄组的WAIS分数大致是正态分布,根据经验法则,可知60-64岁年龄组中有68.27%的人分数在65~115之间。
(4)莎拉的标准分为
母亲的标准分为
由计算结果可知,莎拉的母亲在60—64年龄组中分数比较高.
4。
10
4.11
(1)茎叶图如下:
数茎
树叶
数据个数
6
389
3
7
01267899999
11
8
000112
6
(2)最省油自动挡SUV耗油量的平均数和标准差分别为
(3)最省油手动挡SUV耗油量的平均数和标准差分别为
因此
由以上结果可知,自动挡SUV耗油量的离散程度较大。
(4)平均来看,自动挡SUV的耗油量要高于手动挡,且离散程度较大,如果购买一款SUV,从经济省油的角度考虑,选择手动挡较合适.
第五章
二.单项选择题:
1-5BCDAA6—10DDBBD11—15BBDBD16-20AABAC21-25DBCAB26—30ACDBA
三计算分析题
1、解:
(1)根据原始数据,计算可得:
(小时);=735(小时);
则其68。
27%的置信区间为:
(2),n=100,,则其68.27%的置信区间为:
2、解:
(1),,n=100,
(2)已知:
,n=100,,则其95.45%的置信区间为:
3、解:
(1)已知:
n=20,,,
由方差未知时,小样本的区间估计公式得:
(2)已知:
,,则其置信区间为:
4、解:
已知:
,,,则其置信区间为:
5、解:
已知:
,,则其置信区间为:
6、解:
已知
(件)
7、解:
已知
(个)
8、解:
已知:
,n=136,,则其95%的置信区间为:
9、解:
(1)已知:
n=16,,,
由方差未知时,小样本的区间估计公式得:
即该单位平均每个家庭每天看电视的95%的置信区间为5.55小时到7.95小时。
(2)若已知总体标准差,且要求区间估计的边际误差与上一题的相同,即取边际误差.当时,,估计总体均值时样本容量的确定公式为:
只需增加一个样本就能满足精度需要。
10、解:
已知:
,,,则其置信区间为:
第六章
二单选
1—5ABABC6—10ACDAB11—15BABBD16—20DBDAD
21—25CCCAA26-30BABAD31—35CBADA36-40DADAC
三计算分析
6.1解:
建立原假设与备择假设为:
,
(1)检验统计量〈,所以拒绝原假设,认为该批元件的厚度不符合规定的要求。
(2)利用P值决策。
用【NORMSDIST】计算出的P值为0。
00146<=0。
01,所以拒绝原假设,认为该批元件的厚度不符合规定的要求,与统计量决策结果一致。
6。
2解:
(1),.
(2)样本数据表明应该拒绝原假设时,意味着该生产线生产的玻璃纸平均横向延伸率不符合规格,必须对生产线进行调整。
(3)样本数据无法支持拒绝原假设时意味着质量控制监督人员没有充分的理由认为该生产线所处状态不正常,无需停产调整.
6.3解:
(1)发生第一类错误指的是实际上奖励计划并未提高销售人员的平均销售额,而公司董事长却认为它提高了销售人员的平均销售额,这将导致公司错误的推行新的奖励计划,却无法获得更高的销售额。
(2)发生第二类错误指的是实际上奖励计划提高了销售人员的平均销售额,公司董事长却没有意识到,这将使公司错过推行新的奖励计划的机会,也就无法进一步提高销售额。
6.4解:
建立原假设与备择假设为:
,;
(1)检验统计量<,在5%的显著性水平下,拒绝原假设,既有足够的证据认为新的教学方法使100米成绩有所提高.
(2)利用P值决策.用【NORMSDIST】计算出的P值为0。
0337<=0.05,
拒绝原假设,有足够的证据认为新的教学方法使100米成绩有所提高,与统计量决策结果一致。
6.5解:
建立原假设与备择假设为:
;
(1)检验的临界值是,检验统计量,所以拒绝原假设,即在5%的显著性水平下,认为该化肥能够使小麦增产。
(2)利用P值决策。
用【NORMSDIST】计算出的P值为0。
0004<=0。
05,所以拒绝原假设,即在5%的显著性水平下,认为该化肥能够使小麦增产,与统计量决策结果一致。
6.6建立原假设与备择假设为:
;
,由Excel中的【TINV】函数得
因为,所以拒绝原假设,即在5%的显著性水平下,认为该化肥能够使小麦增产。
(2)利用P值决策。
用【TDIST】计算出的P值为0。
0014<=0.05,所以拒绝原假设,即在5%的显著性水平下,认为该化肥能够使小麦增产,与统计量决策结果一致。
6.7建立原假设与备择假设为:
,
(1)检验统计量,所以拒绝原假设,认为该城市平均人口有所下降。
(2)利用P值决策。
用【NORMSDIST】计算出的P值为0。
0000374749<=0.05,所以拒绝原假设,即在5%的显著性水平下,认为该城市平均人口有所下降,与统计量决策结果一致.
6。
8建立原假设与备择假设为:
(1)检验统计量,所以拒绝原假设,认为该厂的平均成本有所下降。
(2)利用P值决策。
用【NORMSDIST】计算出的P值为0.001<=0.01,所以拒绝原假设,即在5%的显著性水平下,认为该厂的平均成本有所下降,与统计量决策结果一致。
6。
9建立原假设与备择假设为:
;
(1)检验统计量<,不能拒绝原假设,因此没有充分的理由认为该批皮鞋优质率达到96%,所以不接受该批订货。
(2)利用P值决策。
用【NORMSDIST】计算出的P值为0.671>=0.05,所以不能拒绝原假设,没有充分的理由认为该批皮鞋优质率达到96%,不接受该批订货,与统计量决策结果一致。
6.10建立原假设与备择假设为:
;
(1)检验统计量〈,同时也小于,所以不拒绝原假设,因此没有充分的理由认为超过80%的行人有违章行为。
(2)利用P值决策。
用【NORMSDIST】计算出的P值为0.4022〉=0。
05或=0。
01,所以不拒绝原假设,没有充分的理由认为超过80%的行人有违章行为,与统计量决策结果一致.
第7章相关与回归分析
二单项选择题
1—5BCBAC6-10CCABA11—15BCCAA16—20CCBDB
21—25CBBAA26_30BCBBA31_35CBABA36_40BAAAA
三计算分析题
7.1
(1)散点图如下:
从散点图可以看出,销售收入与广告费用之间为正的线性相关关系.
(2)利用Excel的“CORREL”函数计算的相关系数为。
(3)首先提出如下假设:
,。
计算检验的统计量
当时,。
由于检验统计量,拒绝原假设。
表明产量与生产费用之间的线性关系显著。
7.2
(1)散点图如下:
从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。
(2)利用Excel的“CORREL”函数计算的相关系数为。
相关系数,表明复习时间与考试分数之间有较强的正线性相关关系。
7.3
(1)散点图如下:
7.3
利用Excel的“CORREL"函数计算的相关系数为。
由Excel输出的回归结果如下表:
得到的回归方程为:
回归系数表示运送距离每增加1公里,运送时间平均增加0.003585天。
7。
4
(1)散点图如下:
从散点图可以看出,航班正点率与被投诉次数之间为负的线性相关关系。
(2)由Excel输出的回归结果如下表:
回归统计
MultipleR
0.868643
RSquare
0。
75454
AdjustedRSquare
0。
723858
标准误差
18。
88722
观测值
10
方差分析
df
SS
MS
F
SignificanceF
回归分析
1
8772。
584
8772。
584
24。
59187
0.001108
残差
8
2853。
816
356。
727
总计
9
11626.4
Coefficients
标准误差
tStat
P-value
Interce
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学原理与实务 徐静霞 统计学 原理 实务