统计学复习要点.docx
- 文档编号:14031785
- 上传时间:2023-06-20
- 格式:DOCX
- 页数:14
- 大小:88.62KB
统计学复习要点.docx
《统计学复习要点.docx》由会员分享,可在线阅读,更多相关《统计学复习要点.docx(14页珍藏版)》请在冰点文库上搜索。
统计学复习要点
1.统计学是收集、分析、表述和解释数据的科学(不列颠百科全书)
2.按照计量层次分:
分类数据、顺序数据、数值型数据
3.按收集方法分:
观测数据和实验数据
4.按时间状况分:
截面数据和时间序列数据
5.总体:
所研究的全部个体(数据)的集合,其中的每一个个体也称为元素
6.样本:
从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量
7.参数:
描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值,所关心的参数主要有
总体均值(J、标准差(J、总体比例(7)等
8.统计量:
用来描述样本特征的概括性数字度量,它是根据样本数据计算岀来的一些量,是样本的函数,所关心的样本统计量有样本均值(~x)、样本标准差(s)、样本比例(p)等
9.数据的间接来源:
系统外部的数据和系统内部的数据
10.二手数据的特点:
搜集容易,采集成本低、作用广泛、在研究中应优先考虑
11.二手数据的可靠性评估:
数据是谁搜集的?
为什么目的而搜集的?
数据是怎样搜集的?
什么时候搜集
的?
12.数据的直接来源:
调查数据、实验数据
13.概率抽样的特点:
按一定的概率以随机原则抽取样本,每个单位被抽中的概率是已知的,或是可以计算岀来的,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
14.简单随机抽样:
从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的,最基本的抽样方法,是其它抽样方法的基础。
15.分层抽样:
将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样
本
16.整群抽样:
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实
施调查
17.系统抽样:
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为
初始单位,然后按事先规定好的规则确定其它样本单位。
先从数字1到k之间随机抽取一个数字r作为初
始单位,以后依次取叶k,叶2k…等单位
18.多阶段抽样:
先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取岀若干个单位进行调查
19.非概率抽样:
相对于概率抽样而言。
抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽岀部分单位对其实施调查。
有方便抽样、判断抽样、自愿样本、滚雪球抽样、配额抽样等方式
20.方便抽样:
调查过程中由调查员依据方便的原则,自行确定入抽样本的单位
21.判断抽样:
研究人员根据经验、判断和对研究对象的了解,有目的选择一些单位作为样本
22.自愿样本:
被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息
23.滚雪球抽样:
先选择一组调查单位,对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查。
这个过程持续下去,就会形成滚雪球效应
24.配额抽样:
先将总体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判
断抽样的方式选取样本单位
25.概率抽样与非概率抽样的比较:
概率抽样
依据随机原则抽选样本;
样本统计量的理论分布存在
可根据调查的结果推断总体
非概率抽样:
不是依据随机原则抽选样本
样本统计量的分布是不确定的
无法使用样本的结果推断总体
26.问卷调查的方式:
自填式问卷调查;面访式问卷调查;电话式问卷调查
27.实验往往将研究对象分为两组:
实验组和对照组
28.抽样误差:
由于抽样的随机性所带来的误差,它是所有样本可能的结果与总体真值之间的平均性差异。
29.影响抽样误差的大小的因素:
样本量的大小,总体的变异性
30.非抽样误差。
相对抽样误差而言,除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异。
存在于所有的调查之中:
有抽样框误差、回答误差、无回答误差、调查员误差、测量误差
31.非抽样误差的控制:
调查员的挑选,调查员的培训,督导员的调查专业水平,调查过程控制
32.原始数据审核的要点:
完整性审核;准确性审核;适用性审核;时效性审核
33.数据的排序与筛选要用到excel中哪个选项按钮?
34.分类数据的排序:
汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分
35.数据的整理与显示:
对分类数据和顺序数据主要是作分类整理,对数值型数据则主要是作分组整理。
36.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并
不适合于低层次的数据
37.饼图:
也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示样本或总体中各
组成部分所占的比例,用于研究结构性问题
38.环图与饼图区别:
饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的
数据系列,每一个样本或总体的数据系列为一个环
39.确定组数:
在实际分组时,组数一般为5乞K£15
40.做图形时,图形的长宽比例大致为10:
7
41.二维散点图展示二个变量之间的关系
42.气泡图展示三个变量之间的关系
43.雷达图是展示多个变量之间关系的图形
44.众数:
一组数据中出现次数最多的变量值。
不受极端值的影响。
一组数据可能没有众数或有几个众数。
主要用于分类数据,也可用于顺序数据
和数值型数据。
45.中位数:
排序后处于中间位置上的值。
不受极端值的影响主要用于顺序数据,也可用数值型数据,但不能用于分类数据
46.中位数位置=n_1
2
47.9个家庭的人均月收入数据
原始数据:
15007507801080850960200012501630
48.10个家庭的人均月收入数据
排序:
66075078085096010801250150016302000
49.平均数
集中趋势的最常用测度值
易受极端值的影响
有简单平均数和加权平均数之分
50.一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%
计算该投资者在这四年内的平均收益率
不同品牌饮料的频数分布
果汁
6
0.12
12
矿泉水
10
0.20
20
绿茶
11
0.22
22
其他
8
0.16
16
碳酸饮料
15
0.30
30
计
50
1
100
52.四分位差
上四分位数与下四分位数之差
Qd=QU
反映了中间50%数据的离散程度不受极端值的影响
用于衡量中位数的代表性
53.方差和标准差
数据离散程度的最常用测度值
反映了各变量值与均值的平均差异
54.经验法则表明:
当一组数据对称分布时
约有68%勺数据在平均数加减1个标准差的范围之内
约有95%勺数据在平均数加减2个标准差的范围之内
约有99%勺数据在平均数加减3个标准差的范围之内
55.离散系数
标准差与其相应的均值之比
对数据相对离散程度的测度
消除了数据水平高低和计量单位的影响
用于对不同组别数据离散程度的比较
56.概率非负性
对任意事件A,有0_P(A)<1
规范性
必然事件的概率为1;不可能事件的概率为0。
即P('J)=1;P()=0
可加性
若A与B互斥,则P(AUB)=P(A)+P(B)
推广到多个两两互斥事件A1,A2,…,An,有P(A1UA2U…UAn)=P(A1)+P(A2)+…+P(An)
57.连续型随机变量的概率分布
连续型随机变量可以取某一区间或整个实数轴上的任意一个值
它取任何一个特定的值的概率都等于0
不能列岀每一个值及其相应的概率
58.设X~N(0,1),求以下概率:
(1)P(X<1.5);
(2)RX>2);(3)R-1vX_3);(4)P(|X|-2)
解:
⑴P(X<1.5)=住(1.5)=0.9332
(2)
(3)
RX>2)=1-RX<2)=1-0.9973=0.0227
P(-1 =G(3)-: .: (-1)=: G(3)-[1-: .: (1)] =0.9987-(1-0.8413)=0.84 (4) P(lX|<2)=R-2^Xm2)=: .: (2)-: .: 」(-2) =「 (2)-[1-: : <2)]=2: .: <2)-1=0.9545 59.设X~N(5, (1) 32),求以下概率 P(X£10); (2)P(2 60.设X1,X2,…,Xn是从总体X中抽取的容量为n的一个样本,如果由此样本构造一个函数 T(X1,X2,…,Xn>,不依赖于任何未知参数,则称函数T(X1,X2,…,Xn>是一个统计量 样本均值、样本比例、样本方差等都是统计量 61.样本统计量的概率分布,是一种理论分布 62.分布、t分布、F分布,常称之为统计三大分布。 63.分布的变量值始终为正 64.可加性: 若U和V为两个独立的2分布随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自 由度为n1+n2的2分布 65.从均值为方差为;「2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布 近似服从均值为卩、方差为b2/n的正态分布 66.6.4设从一个均值为10、标准差为0.6的总体中随机选取容量为36的样本。 假定该总体不是很偏的, 要求: (1)计算样本均值小于9.9的近似概率。 (2)计算样本均值超过9.9的近似概率。 (3) 计算样本均值在总体均值10附件0.1范围内的近似概率。 -01 二P(Z: : 0)=P(Z—1) 0.1 =1_P(Z: : 1)=1_: 」 (1) =1—0.8413=0.1587 -X-109.9—10 P(X9.9)屮) 0.10.1 ■■0.1 =P(Z)=P(Z-1) 0.1 =1_P(Z: : —1)=G (1)=0.8413 -9.9—10X-1010.1—10 P(9.9: : X: : 10.1)=P() 0.10.10.1 10.1-9.99.9-10、 二P(Z)-P(Z) 0.10.1 =P(Z: : 1)—P(Z: : -1)=2: “1)-1 =20.8413-1=0.6826 67.样本比例的数学期望 二(1-二) n E(p)=二 解: X〜N(922),根据上述性质10X也服从正态分布,由于 重复抽样,样本比例的方差为: ;-p p 68.设x〜N(922)试描述10X的抽样分布 E(10X)=10E(X)=90 D(10X)=100D(X)=100X22=400 所以10X~N(90,400) 69.常用的置信水平值有99%,95%,90%,相应的: .为0.01,0.05,0.10 70.一家食品生产企业以生产袋装食品为主,为对食品质量进行监测,企业质检部门经常要进行抽检,以 分析每袋重量是否符合要求。 现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。 已 知产品重量的分布服从正态分布,且总体标准差为10g。 试估计该批产品平均重量的置信区间,置信水平 为95% 25袋食品的重量 112.5 101.0 103.0 102.0 100.5 102.6 107.5 95.0 108.8 115.6 100.0 123.5 102.0 101.6 102.2 116.6 95.4 97.8 108.6 105.0 136.8 102.8 101.5 98.4 93.3 解: 已知X〜h102),n=25,1-o=95%z创2=1.96。 根据样本数据计算得: 由于是正态总体,且方差已知。 总体均值」在1-: •置信水平下的置信区间为 解: 已知X~N(102),n=25,1-: =95%z。 由于是 1- ^=r=105-3A土1,96x- u103亦土工殂 =(1CI1 该食品平均重量的置信区间为101.44g~109.28g 71.一家保险公司收集到由36个投保人组成的随机样本,得到每个投保人的年龄(单位: 周岁)数据如下表。 试建立投保人平均年龄90%的置信区间 36个投保人年龄的数据 23 35 39 27 36 44 36 42 46 43 31 33 42 53 45 54 47 24 34 28 39 36 44 40 39 49 38 34 48 50 34 39 45 48 45 32 解: 已知n=36,1- 疋土%^-3! >,5±K645x隠 =39.5±2,13 (37.37,41. 投保人平均年龄的置信区间为37.37岁〜41.63岁 72.已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位: h)如下 建立该批灯泡平均使用寿命95%的置信区间 16灯泡使用寿命的数据 1510 1520 1480 1500 1450 1480 1510 1520 1480 1490 1530 1510 1460 1460 1470 1470 解: 已知X〜N(n=16,1-t 根据样本数据计算得: , 1-: -置信水平下的置信区间为 解: 已知n=100,p=65%,1—=95%,Z-.2=5% Vitm 该城市下岗职工中女性比例的置信区间为55.65%〜74.35% 74.某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为 -0=O.O81mm总体标准差为: 3=0.025。 今换一种新机床进行加工,抽取n=200个零件进行检验,得到的 椭圆度为0.076mm。 试问新机床加工零件的椭圆度的均值与以前有无显著差异? (: ■=0.05) 解: H。 : 」=0.081H1: 0.081=°.°5n=200 决策: 在二=0.05的水平上拒绝Ho结论: 有证据表明新机床加工的零件的椭圆度与以前有显著差异 75.根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N~1020,1002)。 现从最近生产的一批 产品中随机抽取16只,测得样本平均寿命为1080小时。 试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高? (: .=0.05) 解.H0<1020 解: H’: .1020 : -=0.05 n=16 检验统计量: 结论: 不能认为该厂生产的元件寿命显著地高于1200小时 77.某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均 厚度为5.3cm,标准差为0.3cm,试以0.05的显著性水平检验机器性能良好的假设。 H0: 」-5 H1—.5: -=0.05 df=10-1=9 检验统计量: _逐一州_5.3-5 =3.16 决策: 在,-0.05的水平上拒绝H0 决策: 在〉=0.05的水平上不拒绝h0 决策: 在〉=0.05的水平上拒绝结论: 说明该机器的性能不好 78.—项统计结果声称,某市老年人口(年龄在65岁以上)的比重为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。 调查结果是否支持该市老年人口比重为14.7%的看法? (广0.05) H。 : 愿=14.7% 已-14.7% : -0.05 n=400 检验统计量: 0.1425-0.147牲r一 z—•.: : ——0,254 Joa47xCT-0.147) V400 决策: 在二=0.05的水平上不拒绝Ho 结论: 该市老年人口比重为14.7%
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 复习 要点