第23练统计与成对数据的统计分析.docx
- 文档编号:16955421
- 上传时间:2023-07-20
- 格式:DOCX
- 页数:29
- 大小:224.45KB
第23练统计与成对数据的统计分析.docx
《第23练统计与成对数据的统计分析.docx》由会员分享,可在线阅读,更多相关《第23练统计与成对数据的统计分析.docx(29页珍藏版)》请在冰点文库上搜索。
第23练统计与成对数据的统计分析
第23练 统计与成对数据的统计分析
1.(2017·全国Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:
万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月份
D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
答案 A
解析 由折线图,7月份后月接待游客量减少,A错误.
2.(多选)(2021·新高考全国Ⅰ)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
答案 CD
解析 设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为
,m,σ,t,依题意得,新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为
+c,m+c,σ,t,因为c≠0,所以C,D正确.
3.(多选)(2021·新高考全国Ⅱ)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是( )
A.样本x1,x2,…,xn的标准差
B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差
D.样本x1,x2,…,xn的平均数
答案 AC
解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势.
4.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
答案 C
解析 对于A,根据频率分布直方图可知,家庭年收入低于4.5万元的农户比率约为(0.02+0.04)×1×100%=6%,故A正确;对于B,根据频率分布直方图可知,家庭年收入不低于10.5万元的农户比率约为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;对于C,根据频率分布直方图可知,该地农户家庭年收入的平均值约为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),故C错误;对于D,根据频率分布直方图可知,家庭年收入介于4.5万元至8.5万元之间的农户比率约为(0.10+0.14+0.20+0.20)×1×100%=64%>50%,故D正确.
5.(2019·全国Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
答案 0.98
解析 经停该站高铁列车所有车次的平均正点率的估计值为
=0.98.
6.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:
cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100cm.
答案 24
解析 底部周长在[80,90)的频率为0.015×10=0.15,
底部周长在[90,100)的频率为0.025×10=0.25,
样本容量为60,所以树木的底部周长小于100cm的株数为(0.15+0.25)×60=24.
7.(2021·全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验,能否认为甲机床的产品质量与乙机床的产品质量有差异?
附:
χ2=
,n=a+b+c+d.
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
解
(1)根据题表中数据知,甲机床生产的产品中一级品的频率是
=0.75,乙机床生产的产品中一级品的频率是
=0.6.
(2)零假设为H0:
甲机床的产品质量与乙机床的产品质量没有差异.
根据题表中的数据可得χ2=
=
≈10.256>6.635=x0.010.
依据小概率值α=0.01的独立性检验,推断H0不成立,
即认为甲机床的产品质量与乙机床的产品质量有差异.
8.(2016·全国Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:
亿吨)的折线图.
注:
年份代码17分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用样本相关系数加以说明;
(2)建立y关于t的经验回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:
i=9.32,
iyi=40.17,
=0.55,
≈2.646.
参考公式:
样本相关系数r=
,
经验回归方程
=
+
t中斜率和截距的最小二乘估计公式分别为
=
,
=
-
.
解
(1)由折线图中数据和附注中参考数据得
=4,
(ti-
)2=28,
=0.55.
(ti-
)(yi-
)=
iyi-
i=40.17-4×9.32=2.89,r≈
≈0.99.
因为y与t的样本相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由
=
≈1.331及
(1)得
=
=
≈0.103,
=
-
≈1.331-0.103×4≈0.92.
所以y关于t的经验回归方程为
=0.92+0.10t.
将2016年对应的t=9代入经验回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.
9.(2021·盐城模拟)某词汇研究机构为对某城市人们使用流行语的情况进行调查,随机抽取了200人进行调查统计得下方的2×2列联表.则根据列联表可知( )
年轻人
非年轻人
合计
经常用流行用语
125
25
150
不常用流行用语
35
15
50
合计
160
40
200
参考公式:
独立性检验统计量χ2=
,其中n=a+b+c+d.
下面的临界值表供参考:
α
0.15
0.10
0.05
0.025
0.010
0.005
0.001
xα
2.072
2.706
3.841
5.024
6.635
7.879
10.828
A.依据小概率值α=0.05的独立性检验,认为“经常用流行用语”与“年轻人”有关系
B.依据小概率值α=0.05的独立性检验,认为“经常用流行用语”与“年轻人”没有关系
C.依据小概率值α=0.025的独立性检验,认为“经常用流行用语”与“年轻人”有关系
D.依据小概率值α=0.025的独立性检验,认为“经常用流行用语”与“年轻人”没有关系
答案 A
解析 χ2=
≈4.167>3.841=x0.05,
依据小概率值α=0.05的独立性检验,认为经常用流行语与年轻人有关系.
10.(多选)(2021·日照模拟)某保险公司为客户定制了5个险种:
甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险,各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得出如下的统计图例:
用该样本估计总体,以下四个选项正确的是( )
A.54周岁以上参保人数最少
B.18~29周岁人群参保总费用最少
C.丁险种更受参保人青睐
D.30周岁以上的人群约占参保人群的20%
答案 AC
解析 对于A,由扇形图可知,54周岁以上参保人数最少,故选项A正确;
对于B,由折线图可知,18~29周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故选项B错误;
对于C,由柱状图可知,丁险种参保比例最高,故选项C正确;
对于D,由扇形图可知,30周岁以上的人群约占参保人群的80%,故选项D错误.
11.(2021·南昌模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:
℃)存在着较强的线性相关关系.某地观测人员根据下表的观测数据,建立了y关于x的经验回归方程
=0.25x+k.
x(次数/分钟)
20
30
40
50
60
y(℃)
25
27.5
29
32.5
36
则当蟋蟀每分钟鸣叫52次时,该地当时的气温预报值为( )
A.33℃B.34℃C.35℃D.35.5℃
答案 A
解析
=
=40,
=
=30,
因为样本点中心(
,
)在经验回归直线上,
所以将(40,30)代入
=0.25x+k,得30=0.25×40+k,解得k=20,
所以
=0.25x+20,
当x=52时,y=0.25×52+20=33.
12.(多选)(2021·漳州模拟)在第一次全市高三年级统考后,某数学老师为了解本班学生的本次数学考试情况,将全班50名学生的数学成绩绘制成频率分布直方图.已知该班级学生的数学成绩全部介于65到145之间(满分150分),将数学成绩按如下方式分成八组:
第一组[65,75),第二组[75,85),……,第八组[135,145],按上述分组方法得到的频率分布直方图的一部分,如图所示,则下列结论正确的是( )
A.第七组的频率为0.008
B.该班级数学成绩的中位数的估计值为101
C.该班级数学成绩的平均分的估计值大于95
D.该班级数学成绩的方差的估计值大于26
答案 BCD
解析 A项,设第七组的频率为x,则10×(0.004+0.012+0.016+0.03+0.02+0.006+0.004)+x=1,得x=0.08,错误;
B项,由10×(0.004+0.012+0.016+0.03)=0.62>0.5>10×(0.004+0.012+0.016)=0.32知,中位数在[95,105)区间,若中位数为x,则10×(0.004+0.012+0.016)+(x-95)×0.03=0.5,解得x=101,正确;
C项,由题图知,70×0.04+80×0.12+90×0.16+100×0.3+110×0.2+120×0.06+130×0.08+140×0.04=102,正确;
D项,s2=
i(xi-102)2=(70-102)2×0.04+(80-102)2×0.12+(90-102)2×0.16+(100-102)2×0.3+(110-102)2×0.2+(120-102)2×0.06+(130-102)2×0.08+(140-102)2×0.04=276,正确.
13.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下2×2列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
20
5
25
女生
10
15
25
合计
30
20
50
则在犯错误的概率不超过________的前提下,认为喜爱打篮球与性别有关(请用百分数表示).
参考公式及数据:
χ2=
,n=a+b+c+d.
α
0.100
0.050
0.010
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
答案 0.5%
解析 因为χ2=
=8.333>x0.005,
则在犯错误的概率不超过0.5%的前提下,认为喜爱打篮球与性别有关.
14.(2021·广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如表:
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
a
75
81
89
若用最小二乘法求得经验回归方程为
=0.67x+54.9,则a的值为________.
答案 68
解析 由已知
=
=30,
=
=61+
,
所以61+
=0.67×30+54.9,a=68.
15.(2021·兰州模拟)某校高二生物研究性学习小组的同学们为了研究当地某种昆虫的产卵数与温度的变化关系,他们收集了一只该种昆虫在温度x℃时相对应产卵数个数为y的8组数据,为了对数据进行分析,他们绘制了如下散点图:
(1)根据散点图,甲、乙两位同学分别用y=bx+a和z=dx+c(其中z=lny)两种模型进行回归分析,试判断这两位同学得到的回归方程中,哪一个的决定系数R2更接近1;(给出判断即可,不必说明理由)
(2)根据
(1)的结论选定上述两个模型中更适宜作为对昆虫产卵数与温度变化关系进行回归分析的模型,并利用下表中数据,计算该模型的经验回归方程;(方程表示为y=f(x)的形式,最后计算结果保留两位小数)
iyi
izi
26
72
3.3
11871
757
5722
(3)据测算,若此种昆虫的产卵数超过e4,则会发生虫害.研究性学习小组的同学通过查阅气象资料得知近期当地温度维持在25℃左右,试利用
(2)中的经验回归方程预测近期当地是否会发生虫害.
附:
对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线
=
u+
的斜率和截距的最小二乘估计分别为
=
,
=
-
.
解
(1)乙同学模型的决定系数R2更接近1.
(2)根据
(1)的结论,应选择z=dx+c作为经验回归方程,根据公式,
=
=
≈0.225,
=
-
≈3.3-0.225×26=-2.55,
∴
=0.23x-2.55,
故y关于x的经验回归方程为
=e0.23x-2.55.
(3)当x=25时,
=e0.23x-2.55=e3.2 因此近期当地不会发生虫害. 16.(2021·淮南模拟)中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了100名学生进行调查,调查样本中有40名女生.下图是根据样本的调查结果绘制的等高堆积条形图(阴影区域表示关注“嫦娥五号”的部分). (1)完成下面的2×2列联表,并依据小概率值α=0.05的独立性检验,能否认为对“嫦娥五号”的关注程度与性别有关? 关注 没关注 合计 男 女 合计 (2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X,求X的分布列及均值. 附: α 0.150 0.100 0.050 0.010 0.005 xα 2.072 2.706 3.841 6.635 7.879 χ2= ,其中n=a+b+c+d. 解 (1) 关注 没关注 合计 男 30 30 60 女 12 28 40 合计 42 58 100 零假设为H0: 对“嫦娥五号”的关注程度与性别无关.根据列联表中数据,得 χ2= = ≈3.941>3.841=x0.05, 依据小概率值α=0.05的独立性检验,推断H0不成立,即认为对“嫦娥五号”的关注程度与性别有关. (2)因为随机选一名高三女生,对此事关注的概率P= = , 又因为X~B , 所以随机变量X的分布列为 X 0 1 2 3 P E(X)=np= . [考情分析] 高考近几年考查热点,主要考查线性回归分析和独立性检验,以实际应用题的形式出现,题目阅读量大,难度中档. 一、用样本估计总体 核心提炼 1.统计中的四个数据特征: (1)众数: 在样本数据中,出现次数最多的那个数据. (2)中位数: 在样本数据中,将数据按从小到大顺序排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数. (3)平均数: 样本数据的算术平均数,即 = (x1+x2+…+xn). (4)方差与标准差: s2= [(x1- )2+(x2- )2+…+(xn- )2], s= . 2.频率分布直方图的两个结论: (1)小长方形的面积=组距× =频率. (2)各小长方形的面积之和等于1. 练后反馈 题号 1 2 3 4 5 6 10 12 正误 错题整理: 二、回归分析 核心提炼 1.经验回归直线 = x+ 经过样本点的中心( , ),若x取某一个值,代入经验回归方程 = x+ 中,可求出y的估计值. 2.样本相关系数: (1)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关. (2)当|r|>0.75时,称成对样本数据具有较强的线性相关关系. 练后反馈 题号 8 11 14 15 正误 错题整理: 三、独立性检验 核心提炼 1.独立性检验的一般步骤 (1)根据样本数据列成2×2列联表; (2)根据公式 χ2= ,计算χ2的值; (3)查表比较χ2与临界值的大小关系,作统计判断. 2.χ2的值越大,对应假设事件H0成立(两类变量相互独立)的概率越小,H0不成立的概率越大. 练后反馈 题号 7 9 13 16 正误 错题整理: 1.[T1补偿](多选)(2021·福州一中模拟)刘女士的网店经营坚果类食品,2020年各月份的收入、支出(单位: 百元)情况的统计如图所示,下列说法中正确的是( ) A.4至5月份的收入的变化率与11至12月份的收入的变化率相同 B.支出最高值与支出最低值的比是5∶1 C.第三季度月平均收入为5000元 D.利润最高的月份是3月份和10月份 答案 ACD 解析 对于A选项,4至5月份的收入的变化率为 =-20,11至12月份的收入的变化率为 =-20,因而两个变化率相同,所以A项正确. 对于B选项,支出最高值是2月份的60百元,支出最低值是5月份的10百元,故支出最高值与支出最低值的比是6∶1,故B项错误. 对于C选项,第三季度的7,8,9月每个月的收入分别为40百元,50百元,60百元,故第三季度的平均收入为 =50(百元),故C选项正确. 对于D选项,利润最高的月份是3月份和10月份都是30百元,故D项正确. 2.[T9补偿](2021·蚌埠模拟)某校随机调查了110名不同的高中生是否喜欢篮球,得到如下的列联表: 男 女 喜欢篮球 40 20 不喜欢篮球 20 30 附: χ2= . α 0.050 0.010 0.001 xα 3.841 6.635 10.828 参照附表,得到的正确结论是( ) A.在犯错误的概率不超过0.1%的前提下,认为“喜欢篮球与性别有关” B.在犯错误的概率不超过0.1%的前提下,认为“喜欢篮球与性别无关” C.依据小概率值α=0.01的独立性检验认为“喜欢篮球与性别有关” D.依据小概率值α=0.01的独立性检验认为“喜欢篮球与性别无关” 答案 C 解析 由题意得χ2= ≈7.822>6.635=x0.010, 6.635<7.822<10.828, 因此可以依据小概率值α=0.01的独立性检验,认为“喜欢篮球与性别有关”. 3.[T12补偿](2021·兰州模拟)“学习强国”学习平台是由中共中央宣传部主管,以习近平新时代中国特色社会主义思想和党的十九大精神为主要内容,立足全体党员、面向全社会的优质平台.2019年1月1日,“学习强国”学习平台在全国上线,某单位组织全体党员登录学习,统计学习积分得到的频率分布直方图如图所示.若学习积分在[1,1.5)(单位: 万分)的人数是32人,则该单位共有________名党员,若学习积分超过2万分的党员可获得“学习达人”称号,则该单位有________名党员能获得该称号. 答案 80 8 解析 由频率分布直方图可知,该单位学习积分在[1,1.5)内的党员所占的频率为0.8×0.5=0.4, 所以该单位的党员总人数为 =80, 该单位学习积分超过2万分的党员所占的频率为0.2×0.5=0.1, 因此该单位能获得“学习达人”称号的党员人数为80×0.1=8. 4.[T14补偿](2021·长沙模拟)若某商品的广告费支出x(单位: 万元)与销售额y(单位: 万元)之间有如下对应数据: x 2 4 5 6 8 y 20 40 60 70 80 根据上表,利用最小二乘法求得y关于x的经验回归方程为 = x+1.5,据此预测,当投入10万元时,销售额的估计值为________万元. 答案 106.5 解析 由题意得 = (2+4+5+6+8)=5, = (20+40+60+70+80)=54, 所以54=5 +1.5, 所以 =10.5, 所以 =10.5x+1.5, 当x=10时, =10.5×10+1.5=106.5. 5.[T15补偿](2021·张家口模拟)某电器企业统计了近10年的年利润额y(千万元)与投入的年广告费用x(十万元)的相关数据,散点图如图,对数据作出如下处理: 令ui=lnxi,vi=lnyi,得到相关数据如表所示: ivi i i 30.5 15
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 23 统计 成对 数据 统计分析