第1讲 统计与统计案例Word文档格式.docx
- 文档编号:4011218
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:33
- 大小:254.17KB
第1讲 统计与统计案例Word文档格式.docx
《第1讲 统计与统计案例Word文档格式.docx》由会员分享,可在线阅读,更多相关《第1讲 统计与统计案例Word文档格式.docx(33页珍藏版)》请在冰点文库上搜索。
80=18.故选B.
4.(2020·
全国Ⅱ卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:
公顷)和这种野生动物的数量,并计算得
xi=60,
yi=1200,
(xi-
)2=80,
(yi-
)2=9000,
)(yi-
)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:
相关系数r=
,
≈1.414.
解
(1)由已知得样本平均数
=
yi=60,从而该地区这种野生动物数量的估计值为60×
200=12000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r=
≈0.94.
(3)分层抽样:
根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:
由
(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
考点整合
1.抽样方法
抽样方法包括简单随机抽样、分层抽样,两种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围.
2.统计中的四个数据特征
(1)众数:
在样本数据中,出现次数最多的那个数据.
(2)中位数:
在样本数据中,将数据按大小顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:
样本数据的算术平均数,即
(x1+x2+…+xn).
(4)方差与标准差.
s2=
[(x1-
)2+(x2-
)2+…+(xn-
)2],
s=
3.直方图的两个结论
(1)小长方形的面积=组距×
=频率.
(2)各小长方形的面积之和等于1.
4.回归分析与独立性检验
(1)回归直线
x+
经过样本点的中心(
),若x取某一个值代入回归直线方程
中,可求出y的估计值.
(2)独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
a+c
b+d
n
则K2=
(其中n=a+b+c+d为样本容量).
热点一 抽样方法
【例1】
(1)总体由编号为01,02,…,49,50的50个个体组成,利用下面的随机数表选取6个个体,选取方法是从随机数表第6行的第9列和第10列数字开始从左到右依次选取两个数字,则选出的第4个个体的编号为( )
第6行至第9行的随机数表
2748 6198 7164 4148 7086 2888 8519 1620
7477 0111 1630 2404 2979 7991 9683 5125
3211 4919 7306 4916 7677 8733 9974 6732
2635 7900 3370 9160 1620 3882 7757 4950
A.3B.19C.38D.20
(2)(2020·
百校大联考)在新冠肺炎疫情期间,大多数学生都进行网上上课.我校高一、高二、高三共有学生1800名,为了了解同学们对“钉钉”授课软件的意见,计划采用分层抽样的方法从这1800名学生中抽取一个容量为72的样本.若从高一、高二、高三抽取的人数恰好是从小到大排列的连续偶数,则我校高三年级的人数为( )
A.800B.750C.700D.650
解析
(1)由题意知,编号为01~50的个体才是需要的个体.由随机数表依次可得41,48,28,19,16,20,……故第4个个体的编号为19.故选B.
(2)设从高三年级抽取的学生人数为2x人,则从高二、高一年级抽取的人数分别为2x-2,2x-4.
由题意可得2x+(2x-2)+(2x-4)=72,∴x=13.
设我校高三年级的学生人数为N,且高三抽取26人,
由分层抽样,得
,∴N=650(人).
答案
(1)B
(2)D
探究提高 解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值.
【训练1】
(1)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行第6列的数字开始,由左到右依次选取两个数字,则选出来的第5个个体的编号为________.
第1行至第2行的随机数表
21166508 90342076 43812634 91641750 71594506
91273536 80727467 21335025 83120276 11870526
(2)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.
解析
(1)从随机数表的第1行第6列的数字开始,按规则得到的编号依次为50,89,03,42,07,64,38,12,63,49,16,41,75,07,15,94,50,……其中编号在01至20之间的依次为03,07,12,16,07,15,……按照编号重复的删除后一个的原则,可知选出来的第5个个体的编号为15.
(2)因为样本容量n=60,总体容量N=200+400+300+100=1000,所以抽取比例为
因此应从丙种型号的产品中抽取300×
=18(件).
答案
(1)15
(2)18
热点二 用样本估计总体
角度1 数字特征与统计图表的应用
【例2】
(1)(2020·
衡水检测)甲、乙两名同学高三以来6次数学模拟考试的成绩统计如下图,甲、乙两组数据的平均数分别为
甲、
乙,标准差分别为s甲、s乙,则( )
A.
甲<
乙,s甲<s乙B.
乙,s甲>s乙
C.
甲>
乙,s甲<s乙D.
(2)2020年初,我国突发新冠肺炎疫情,疫情期间中小学生“停课不停学”.已知某地区中小学生人数情况如甲图所示,各学段学生在疫情期间“家务劳动”的参与率如乙图所示.为了进一步了解该地区中小学生参与“家务劳动”的情况,现用分层抽样的方法抽取4%的学生进行调查,则抽取的样本容量、抽取的高中生中参与“家务劳动”的人数分别为( )
A.2750,200B.2750,110
C.1120,110D.1120,200
解析
(1)由统计图知,甲同学的总体成绩要好于乙同学的成绩,且乙同学的成绩波动较大,甲同学成绩较稳定.∴
乙,且s甲<s乙.
(2)学生总数为15500+5000+7500=28000人,由于抽取4%的学生进行调查,则抽取的样本容量为28000×
4%=1120(人).故高中生应抽取的人数为
5000×
4%=200(人),而高中生中参与“家务劳动”的比率为0.55,故高中生中参与“家务劳动”的人数为200×
0.55=110(人).
答案
(1)C
(2)C
角度2 用样本的频率分布估计总体分布
【例3】(2019·
全国Ⅲ卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:
将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:
“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解
(1)由已知得0.70=a+0.20+0.15,
故a=0.35,
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×
0.15+3×
0.20+4×
0.30+5×
0.20+6×
0.10+7×
0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×
0.05+4×
0.10+5×
0.15+6×
0.35+7×
0.20+8×
0.15=6.00.
探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.
2.在例3中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;
本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.
【训练2】
(1)(2020·
新高考海南卷)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )
A.这11天复工指数和复产指数均逐日增加
B.这11天期间,复产指数增量大于复工指数的增量
C.第3天至第11天复工复产指数均超过80%
D.第9天至第11天复产指数增量大于复工指数的增量
解析 由图可知,第1天到第2天复工指数减少,第7天到第8天复工指数减少,第10天到第11天复工指数减少,第8天到第9天复产指数减少,故A错误;
由图可知,第一天的复产指数与复工指数的差大于第11天的复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故B错误;
由图可知,第3天至第11天复工复产指数均超过80%,故C正确;
由图可知,第9天至第11天复产指数增量大于复工指数的增量,故D正确;
故选C、D.
答案 CD
(2)(2019·
全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80]
企业数
2
24
53
14
7
①分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
②求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:
≈8.602.
解 ①根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为
=0.21.
产值负增长的企业频率为
=0.02.
所以用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
②100个企业的产值增长率平均数为
×
(-0.10×
2+0.10×
24+0.30×
53+0.50×
14+0.70×
7)=0.30,
ni(yi-
)2=
[(-0.40)2×
2+(-0.20)2×
24+02×
53+0.202×
14+0.402×
7]=0.0296,
=0.02×
≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
热点三 回归分析在实际问题中的应用
【例4】如图是某地区2000年至2016年环境基础设施投资额y(单位:
亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:
=-30.4+13.5t;
根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:
=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?
并说明理由.
解
(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=-30.4+13.5×
19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×
9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型
=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
探究提高 1.求回归直线方程的关键及实际应用
(1)关键:
正确理解
的计算公式和准确地计算.
(2)实际应用:
在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
2.相关系数
(1)当r>
0时,表明两个变量正相关;
当r<
0时,两个变量负相关.
(2)当|r|>
0.75时,认为两个变量具有较强的线性相关关系.
【训练3】
(1)(2020·
全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:
℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bxB.y=a+bx2
C.y=a+bexD.y=a+blnx
百强名校领军考试)已知变量x,y的关系可以用模型y=cekx拟合,设z=lny,其变换后得到一组数据如下:
x
16
17
18
19
z
50
34
41
31
由上表可得线性回归方程
=-4x+
,则c=( )
A.-4B.e-4C.109D.e109
解析
(1)由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D.
(2)由数据表知
=17.5,
=39.
∵样本点中心(
)在回归直线上,
∴
=39+4×
17.5=109.
又z=lny=ln(cekx)=kx+lnc,
∴lnc=
=109,则c=e109.
答案
(1)D
(2)D
热点四 独立性检验
【例5】(2020·
新高考山东、海南卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:
μg/m3),得下表:
SO2
PM2.5
[0,50]
(50,150]
(150,475]
[0,35]
32
4
(35,75]
6
8
12
(75,115]
3
10
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×
2列联表:
[0,150]
[0,75]
(3)根据
(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?
附:
K2=
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解
(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为
=0.64.
(2)根据抽查数据,可得2×
64
(3)根据
(2)的列联表得
K2的观测值k=
≈7.484.
由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.
探究提高 1.独立性检验的一般步骤
(1)根据样本数据列成2×
2列联表;
(2)根据公式K2=
,计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断.
2.K2的观测值k越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大.
【训练4】某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
解
(1)由调查数据,男顾客中对该商场服务满意的比率为
=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为
=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=
≈4.762.
由于4.762>
3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
A级 巩固提升
一、选择题
1.《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A.0.5B.0.6C.0.7D.0.8
解析 法一 设调查的100位学生中阅读过《西游记》的学生人数为x,则x+80-60=90,解得x=70,
所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为
=0.7.故选C.
法二 用Venn图表示阅读过《西游记》和《红楼梦》的人数之间的关系如图:
易知调查的100位学生中阅读过《西游记》的学生人数为70,所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为
=0.7.
答案 C
全国Ⅲ卷)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01B.0.1C.1D.10
解析 10x1,10x2,…,10xn的方差为102×
0.01=1.故选C.
3.给出如下列联表
患心脏病
患其他病
高血压
非高血压
80
60
110
P(K2≥10.828)≈0.001,P(K2≥6.635)≈0.010,参照公式k=
,得到的正确结论是( )
A.有99%以上的把握认为“高血压与患心脏病无关”
B.有99%以上的把握认为“高血压与患心脏病有关”
C.在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病无关”
D.在犯错误的概率不超过0.1%的前提下,认为“高血压与患心脏病有关”
解析 由列联表中的数据可得K2的观测值
k=
≈7.486>6.635,
根据参考数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第1讲 统计与统计案例 统计 案例