抽样调查统计方法.pptx
- 文档编号:14167677
- 上传时间:2023-06-21
- 格式:PPTX
- 页数:144
- 大小:522.61KB
抽样调查统计方法.pptx
《抽样调查统计方法.pptx》由会员分享,可在线阅读,更多相关《抽样调查统计方法.pptx(144页珍藏版)》请在冰点文库上搜索。
东南大学远程教育统计学统计学第三十三第三十三讲讲主讲教师:
黄晓红主讲教师:
黄晓红1第七章抽样调查第七章抽样调查第一节抽样调查概述第二节抽样调查的一般原理第三节抽样估计第四节抽样的组织形式2
(一)抽样推断的含义抽样调查是按随机原则,从全部研究对象中抽取一部分单位进行观察,并根据样本的实际数据,对总体的数量特征做出具有一定可靠程度的估计和判断,从而达到对全部研究对象的认识的一种统计方法。
其中心问题是如何根据已知的部分资料来推断未知的总体情况。
第一节抽样调查概述一、抽样调查的含义3
(二)抽样推断的特点1抽样推断是非全面调查2抽样推断是按随机原则抽选调查单位。
3抽样推断是用样本的指标数值去推算总体的指标数值。
4抽样推断中产生的抽样误差,可以事先计算并加以控制。
4二、抽样调查的主要内容
(一)随机抽样:
按照随机原则从总体中抽取部分单位构成样本的过程。
(二)统计估计:
根据随机抽取的部分单位的特性来对总体的分布函数、分布参数或数字特征等进行推测估算的过程。
(三)假设检验:
根据经验或认识,提出某一假设,并判断该假设正确性的过程。
5三、抽样推断的作用
(一)解决了无法进行全面调查或很难进行全面调查的问题
(二)可以补充或修正全面调查的数据(三)可以节省调查费用和调查时间6四、抽样推断涉及的基本概念
(一)总体和样本1全及总体(总体、母体)它是指调查对象的全部单位,是由具有某种共同性质的许多单位组成的。
总体既是我们所要研究的对象,又是样本所赖以抽取的母体。
组成总体的单位称为总体单位,总体的单位数通常用N表示。
72抽样总体(样本、字样)是指在总体中按随机原则抽取的那一部分单位所构成的集合体。
组成样本的单位称为样本单位,样本单位数亦称样本容量,通常用n表示。
样本单位数总是大于1而小于总体单位数N的,即1nN。
8样本单位数n相对于总体的单位数N要小得多。
统计把nN称为抽样比例。
样本单位数达到或超过30个(n30)称为大样本,而在30个以下(n30)称为小样本。
社会经济现象的抽样调查多取大样本,而自然实验观察则多取小样本。
以很小的样本来推断很大的总体,这是抽样推断法的重要特点。
9
(二)总体指标和抽样指标1总体指标总体指标是指根据总体各单位的标志值计算出来的,反映总体某种属性或特征的综合指标,亦称为总体参数。
由于总体是惟一确定的,因此,根据总体计算的总体指标也是惟一确定的。
常用的总体指标有:
总体平均数、总体成数、总体标准差和总体方差。
10
(1)总体平均数代表总体单位数量标志一般水平的指标,它表明变量变动的集中趋势,通常用表示。
其中:
X1,X2,Xn为总体中每一个调查单位的取值N是总体单位数是总和符号11XNXNXXXXXniin11.
(2)总体成数当总体的一个现象有两种表现时,其中具有某一种表现的单位数占总体单位数目的比重,叫总体成数,用P或Q表示。
其计算公式为:
N代表总体单位数;N1代表具有某一种表现的总体单位数;No代表具有另一种表现的总体单位数;P、Q代表成数。
12NNp1NNQ013PQNNNQPNNN110101则例1某公司生产的10000件产品中,有500件为不合格品。
则产品不合格率PN5001000050产品合格率Q1P1509514N1(3)总体标准差和总体方差。
表示单位之间标志值的变异程度指标,叫做总体标准差,又称总体均方差(标准差)。
总体标准差的平方称为总体方差。
其计算公式为:
15NXX2NXX222.抽样指标抽样指标是指根据抽样总体各单位标志值计算的综合指标,又称样本指标。
常用的抽样指标有:
抽样平均数、抽样成数、抽样总体标准差和抽样总体方差。
16
(1)抽样平均数。
代表样本单位数量标志一般水平的指标称抽样平均数或样本平均数。
17nxnxxxxxniin1321.
(2)抽样成数。
在抽样总体中,一个现象有两种表现时,其中具有某一种表现的单位数占抽样总体单位数的比重,叫做抽样成数,亦称样本成数。
用p或q表示。
其计算公式为:
18nnp1nnq0同总体成数19p1q1)(0101则nnnqpnnn例52)从某公司生产的产品中,抽样检查了100件产品,其中有5件不合格,则:
样本产品不合格率:
样本产品合格率20%510051nnp%95%511pq(3)抽样总体标准差和抽样总体方差。
说明抽样总体之间标志值变异程度的指标,叫做抽样总体标准差。
抽样总体标准差的平方称为抽样总体方差(简称样本方差)。
其计算公式为:
21nxxs2nxxs22一个总体可以抽取许多个样本,而样本不同,抽样指标的数值也各不相同。
可见,抽样指标的数值不是惟一确定的。
因为抽样指标是样本变量的函数,是随机可变的变量。
也就是说,由样本观测值所决定的统计量是随机变量。
22(三)重复抽样和不重复抽样1重复抽样(重置抽样)采用这种方法抽取样本单位的特点是:
同一单位有多次重复被抽中的机会,并且总体单位数目始终不变,每个单位抽中或抽不中的机会在各次都是相同的。
232不重复抽样(不重置抽样)采用这种方法抽取样本单位的特点是:
同一单位只有一次被抽中的机会,并且总体单位数目随着样本单位数目抽取的次数的增多而愈变愈少。
每个单位抽中或抽不中的机会在各次是不同的。
24抽样推断是通过样本对总体进行推算。
其中,统计量与被估算的总体指标之间的关系,是推算的关键。
两者的关系主要通过统计量的分布来反映,且因样本量的大小而有差别。
第二节抽样推断的一般原理一、抽样推断的理论依据25
(一)大样本统计量的推断依据大数定律在重复试验中,事件频率的稳定性是大量随机现象的统计规律性的典型表现。
人们根据频率的稳定性预见到概率的存在和概率的性质,同样,在长期的统计实践中,人们也找到了大量随机现象的平均结果也具有稳定性的理论依据,即大数定律。
26大数定律在统计中是指一切关于大量随机现象的平均结果稳定性的定理,它为那些均值存在稳定性及整个统计推断提供了最基本的理论依据。
大数定律的本质意义在于,尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。
27比雪夫大数定理:
设x1,x2,x3,xn为独立的随机变量序列,服从同一分布,且具有相同的期望值以及方差,则对于任意正数有281)1(lim1niinxnp
(二)大样本统计量分布的依据一中心极限定理中心极限定理是指在一定的条件下,大量相互独立的随机现象的概率分布是以正态分布为极限。
因正态分布在概率论中占有中心地位,所以把该定理叫做中心极限定理。
29
(二)大样本统计量分布的依据一中心极限定理在社会经济现象中,有些随即变量表现为大量独立随即变量之和:
例如:
任一指定时刻城市用电量是大量用户用电量的总和;一个零件的实际尺寸与标准尺寸的偏差是原材料、设备、操作技术、经营管理水平多种因素综合影响的结果。
30
(二)大样本统计量分布的依据一中心极限定理中心极限定理的研究目标:
随即变量之和在什么条件下渐近地服从正态分布。
李亚普诺夫定理:
在一定条件下,随即变量之和的极限分布近似地服从正态分布:
31
(二)大样本统计量分布的依据一中心极限定理样本平均数也是一种随即变量之和的分布,根据中心极限定理,只要在样本容量n充分大的情况下,不论全及总体的变量分量分布是否属于正态分布,其抽样平均数也趋近于正态分布。
许多属于二项分布的离散型现象,当样本容量n很大时,利用正态分布作为二项分布的极限式,可以解决某一点或某一区间的概率时所遇到的困难综上述,在抽样推断或估计中,正态分布得到广泛运用32大数定律只揭示了大量随机变量的平均结果,但并没有涉及到随机变量的分布规律,而中心极限定理则说明了许多随机变量的分布是正态或近似正态的。
这就可以简化统计推断中许多统计量的分布问题,所以它是统计学中的重要工具之一。
33二、抽样推断的原理抽样估计就是以样本的实际资料为依据,计算一定的样本指标,并以此对总体做出数量上的估计和判断。
其原理是:
(一)抽样推断运用的是归纳推理方法抽样推断的方法是归纳法,而归纳法推断结论的正确性必须过事实的验证。
34
(二)抽样推断运用的是概率原理抽样推断的结论,其可靠性究竟是多少,需要运用概率的原理加以说明。
(三)抽样推断的结论存在着一定的抽样误差抽样误差是抽样调查所特有的,而且是不可避免的。
35抽样推断结论的可靠程度和抽样误差的大小是联系在一起的。
在其他条件不变的情况下,允许的误差范围愈大,则概率的保证程度也愈大;反之,如果精确度的要求愈高,允许的误差范围愈小,则概率的保证程度也愈小。
抽样误差范围可以事先通过定资料加以计算,并能采取一定的组织措施来控制这个误差范围,保证抽样推断的结果达到一定的可靠程度。
36三、抽样推断的优良标准
(一)无偏性用抽样指标推断总体指标要求抽样指标的平均数等于被估计的总体指标。
就是说,虽然每个可能样本的抽样指标不一定等于未知的总体指标,但在多次反复估计中,要求各个抽样指标的平均数应该等于总体指标,亦即从平均来说,抽样指标的估计是没有偏误的,叫做无偏性。
37例如,样本平均数总是总体平均数X的无偏估计量,亦即样本平均数的平均数等于总体平均数。
因为38XxEnxEnxExE)()()()
(二)一致性用抽样指标推断总体指标要求其样本的单位数充分大时,抽样指标也充分地靠近总体指标。
也可以说该抽样指标对总体指标是一个一致估计量。
39证明:
设为任意正数,根据大数定律有:
抽样平均数的期望值等于总体平均数,即401)(limxExnXxE)
(1)(limXxpn(三)有效性用抽样指标推断总体指标时,要求作为优良估计量的方差应比其他估计量的方差小。
即用抽样平均数和总体某一变量来估计总体平均数,虽然两者都是无偏的估计量,而且在每一次估计中两种估计量和总体平均数都可能有离差,但样本平均数更靠近在总体平均数的周围,平均说来它的离差比较小,所以对比来说,抽样平均数是更为优良的估计值41东南大学远程教育统计学统计学第三十四第三十四讲讲主讲教师:
黄晓红主讲教师:
黄晓红42第三节抽样估计第三节抽样估计一、抽样误差的概念1.误差是由样本得到的估计值与被估计的总体未知真实特征值之差,或样本指标数值与总体指标数值之间的差数。
2.抽样误差就是指按随机原则抽样时,单纯由不同的随机样本得出不同的估计量而产生的误差。
433.由于总体平均数和成数是惟一确定的,抽样平均4.数和成数则是随机变量,因而抽样误差也不是惟5.一确定的,而是随机变量。
抽样误差愈小,表示样本的代表性愈高;反之,样本的代表性就愈低。
同样,抽样误差还说明样本指标与总体指标的相差范围,因此,它也是推算总体的依据。
444.抽样误差是抽样调查自身所固有的不可避免的误差,虽然不能消除这种误差,但可以用数理统计方法进行计算确定其数量界限并加以控制,也就是根据研究的需要,把它控制在所允许的范围以内。
45二、抽样平均误差
(一)抽样平均误差的含义抽样平均误差是指一个抽样方案的所有可能样本的某统计量与总体相应指标的离差的平均值。
纯随机抽样平均误差的定义关系式如下:
46所有可能的样本个数望值)(各种样本统计量期抽样平均误差2上式表明了抽样平均误差的含义,并不能作为计算公式。
因为:
1.在现实的抽样中,我们只能取得一个样本,不可能也没必要获得全部所有可能样本,所以抽样平均误差也不可能通过所有样本来直接计算。
2.统计量的分布律中我们已经知道:
统计量是以总体相应指标为期望值,抽样平均误差实质上就是该统计量在其概率分布中的标准差。
47
(二)抽样平均误差的计算1抽样平均数的平均误差
(1)在重复抽样的条件下总体方差已知,样本平均数服从正态分布,其抽样平均数的平均误差计算公式为:
48nnx2由上式可以看出,抽样平均数的平均误差就是抽样平抽样平均数的平均误差就是抽样平均数的标准差。
均数的标准差。
抽样平均误差和总体标准差是成正比的,与样本单位数的平方根成反比。
因此,要想减少抽样平均误差以提高抽样指标的代表性,只能增大样本单位数n,因为总体标准差是不能改变的。
49
(2)在不重复抽样的条件下,抽样平均数的平均误差计算公式为:
当总体单位数N很大时,公式中的N1可以用N代替。
50)1(2NnNnx在实际计算时,不重复抽样的抽样平均数的平均误差可用下式计算:
51)1(2Nnnx2成数的平均误差统计成数(比重)是一种结构相对数,它实际属于是非标志平均数的特例。
统计上习惯以1表示“是”,以0表示“非”。
p为1的概率,q1p为0的概率。
成数的方差是P(1P),其特点为,最大值为025(0.50.5),即当两种表现的总体单位各占一半时,它的变异程度最大。
52在重复抽样条件下,其计算公式为:
在不重复抽样条件下,其计算公式为:
53nppp)1()1()1(NnNnppp当N很大时,以N代替N1,则可简化为:
在没有总体方差或总体标准差时,可以用样本方差代替总体标准差54)1()1(Nnnppp例3某公司生产一批灯泡,共1000只,从中随机抽取100只,测其寿命平均为1000小时,样本标准差为60小时,计算其抽样误差。
按重复抽样计算:
55(小时)61006022nsx按不重复抽样计算:
56小时)(69.5)10001001(10060)1(22Nnnsx例54某公司有员工10000人,从中随机抽选1000人调查电脑的拥有率,发现50家有,问这一调查的抽样误差为多少?
解:
p5010000.05按重复抽样计算:
57%69.0100095.005.0)1(nppp按不重复抽样计算:
58%65.0)1000010001(100095.005.0)1()1(Nnnppp东南大学远程教育统计学统计学第三十五第三十五讲讲主讲教师:
黄晓红主讲教师:
黄晓红59(三)极限误差(允许误差)极限误差是指抽样推断中依一定的概率保证下的误差的最大范围。
极限误差也叫置信区间,即用一定的概率来保证抽样误差不超过某一给定的最大可能范围。
记作601.抽样平均数的极限误差:
61xXxxXXxx1.抽样成数的极限误差:
62PpppPPpp63ppppPxxXxxxXxxX同理:
(四)抽样估计的可靠程度抽样极限误差通常是以抽样平均误差为标准单位来衡量的,即:
T称为概率度,表示相对误差范围。
64pptxxt;抽样极限误差也可以表示为抽样平均误差的若干倍,其倍数即概率度t:
65ntntxtXxx2xxt同理:
66nPPtptPpp)1(ppt上述两式的实际意义:
抽样极限误差即抽样误差范围可以用t倍的抽样平均误差来表示,在抽样平均误差为一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计抽样平均数或成数落在误差范围内的概率越大。
67xtXxxptPpp也可以说:
在抽样平均误差为一定的条件下,当概率度t的值越大,则抽样误差范围越大,估计全及平均数或成数包含在相应的区间范围内的概率越大,从而抽样估计的可信程度也就越高。
反之反是。
68如果把可靠程度即概率用p表示,概率值t的大小决定p的大小,即p是t的函数:
为了方便计算,在实际工作中,按不同的t值和相应的概率编成正态分布概率表供查用。
例如;69)(tFp)(tFt11.281.51.641.9622.5830.68270.80000.86640.90000.95000.95450.99000.9973概率度和概率的函数关系式70)(tF例某农场种植小麦5000亩,收获前夕随机抽取25亩进行实割实测,测得平均亩产500千克,标准差为50千克,试求全部5000亩小麦的平均亩产在480千克至520千克之间的概率。
719545.0)2(20500X20500p210500480t102550nsxxx)(解:
F三、影响抽样误差的因素
(一)抽样单位数目的多少
(二)总体被研究的标志的变异程度(三)抽样方法和组织形式的不同72四、抽样估计
(一)抽样估计的现实意义社会经济统计的认识对象是现象总体的数量方面,理应搜集现象总体的全面资料,再依据统计目的研究其总体的数量特征,以获得总体本质及其规律性的认识。
但在实际工作中,由于受客观条件或环境的限制,往往不可能或没必要搜集总体的全面资料,只可能或只需要利用样本资料估计总体的数量特征或推算总体的总量指标,这就是抽样估计。
73
(二)抽样估计的方法、点估计和区间估计点估计也叫定值估计,它是以抽样得到的样本指标作为总体指标的估计值,同时给出极限误差和相应的可靠程度的一种估计方法。
在实践中,对总体的特征值(如平均数、成数等)估计,主要借助于点估计,具体表示点估计是用样本数据计算出估计值,同时给出估计精度和相应的可靠程度。
74区间估计是根据一定的精确度和可靠程度的要求,用样本指标和抽样误差去推断总体指标的可能范围的一种估计方法。
由于点估计量与总体的未知参数并不完全相等,故它们之间必然存在着一定的误差,并且不能确知误差的大小、估计精度的高低以及估计的可信程度等信息。
为此区间估计将考虑这些因素,即根据样本统计量及估计的可能误差,找出在一定保证程度下的估计区间,即置信区间。
75对总体平均数(或总体成数)的估计有两种情形:
(一)根据已经给定的极限抽样误差范围,求概率保证程度F(t),进而进行点估计和区间估计。
1.抽取样本,计算样本平均数(或样本成数),作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差。
762.根据给定的抽样极限误差范围,估计总体平均数(或总体成数)的下限(或)和上限(或)。
3.将抽样极限误差除以抽样平均误差,求出概率度t值,再根t值查概率表求出相应的可信度F(t)。
4.进行区间估计和点估计。
77XXPPXXPP例55)某糖厂有一台自动包糖机,包装重量为50kg。
现对包装的白糖重量进行检验,每生产10袋抽取1袋。
某日糖厂共包装300袋,抽取的30袋资料如下,若根据质量要求,每袋糖的极限误差不大于120g,试估计该机器的包装精度。
78重量(kg)x袋数f49.449.649.850.050.250.450.650.813575441合计3079
(1)计算样本平均数和标准差,并推算平均误差:
80349.03066.31.503015032ffxxsfxfx
(2)根据给定的极限误差0.12kg,计算总体平均数的上限和下限:
8198.4912.01.50x22.5012.01.50xxx下限上限(3)829545.02p206.012.0t06.030349.0nsxxx)(,F(4)点估计:
该包装机平均包装重量为50.1kg,误差不大于120g的可靠程度为9545区间估计:
在9545的可靠程度下,估计该包装机包装的平均重量在49.98-50.22kg之间。
83例57某公司设计一种新式产品,为了预测销路,随机抽取了900人进行了调查,结果有720人表示可以购买。
如果要求极限误差不超过35,试估计该产品可以销售的比率。
(1)根据样本资料,计算样本成数及平均误差:
84)(33.190040402.08.0p1ps80900720nnpp1
(2)根据给定的极限误差3.5,计算:
85%5.76%5.3%80%5.83%5.3%80下限上限PPPP)(992.58(p58.233.15.3t3F(4)点估计:
估计该产品的销售率为80,其误差不大于3.5的可靠程度为99。
区间估计:
在99的保证程度下,估计该产品销售率在76.5-83.5之间。
86东南大学远程教育统计学统计学第三十六第三十六讲讲主讲教师:
黄晓红主讲教师:
黄晓红87
(二)根据给定的可信度F(t),求出极限抽样误差,进而进行点估计和区间估计。
具体步骤是:
1.抽取样本,计算样本平均数(或样本成数)作为总体平均数(或总体成数)的估计值,并计算样本标准差S,以此推算抽样平均误差。
884.进行点估计和区间估计。
2.根据给定的可信度F(t)的要求,查概率表求得概率度t值。
3.根据概率度和抽样平均误差计算抽样极限误差的可能范围,并据以计算被估计的总体平均数(或总体成数)的上、下限。
89例5.8从全校近万名学生中,随机抽取100名学生的平均身高为160cm,根据计算,学生身高的标准差为3cm。
现要求可信度要达到9545,试对全体学生的平均身高进行估计。
903.01000010011003n1ns3s160x122xN,)已知解:
(
(2)根据给定的可信度F(t):
9545,查概率表t=2(3)计算极限误差和平均身高的上下限:
上限160+0.6160.6cm下限160-0.6159.4cm916.03.02txX(4)点估计:
该校学生平均身高为160cm其误差不大于0.6cm的可靠性为9545。
区间估计:
在9545的保证程度下,该校学生的平均身高为159.4160.6cm之间。
92第四节抽样的组织形式一、抽样的组织方式抽样组织方式按抽样时对总体的加工整理形式不同,分为简单随机抽样、类型抽样、等距抽样和整群抽样。
93
(一)简单随机抽样1简单随机抽样的含义简单随机抽样又称为纯随机抽样,它是不对总体做任何加工整理,直接从总体中抽取调查单位的抽样方式。
必须满足下列两条要求:
代表性,即要求样本分布与总体分布相同;独立性,即要求样本各个单位相互独立。
942简单随机的抽样方法
(1)抽签法。
适合用于总体单位数较少的总体。
(2)随机数表法。
适合用于大规模的社会经济调查。
(3)简单随机抽样的平均误差95nnx2nppp)1
(二)类型抽样1类型抽样的含义类型抽样又称为分层抽样或分类抽样,它是将总体单位先按一定标志分组,然后在各组中随机抽取样本的抽样组织方式。
类型抽样是应用于总体内各单位在被研究标志上有明显差别的抽样。
主要原则是:
分组时应使组内差异尽可能小,使组间差异尽可能大。
962类型抽样的方法
(1)等比例抽样:
按同样的抽样比nN,确定各组中应抽的样本单位数,如各组单位数为N,则从中抽取的样本单位为N1(其nN相等),各组样本单位数确定后,按随机原则从各组中抽取各类单位组成样本。
(2)不等比例抽样多指某类单位在总体中占的比重过小时,对其按比例抽不到或只能抽到很少数量,为了保证样本中各类单位的代表性而采取不等比例抽样的方法。
97(三)等距抽样1等距抽样的概念等距抽样又称为机械抽样或系统抽样。
它是先将总体各单位按有关标志或无关标志进行排列,再按照固定的顺序和间隔来抽选样本单位的一种抽样组织形式。
等距抽样是不重复抽样,通常可以保证被抽取的单位在总体中均匀分布,缩小各单位之间的差异程度,提高样本的代表性。
982抽样方法
(1)无关标志排队法:
就是指总体单位采用与调查项目没有关系的标志进行排队的方法。
(2)有关标志排队法:
就是总体单位采用与调查项目有关的标志进行排队的方法。
99(四)整群抽样1.整群抽样的含义是先将总体各单位划分成若干群,再以群为单位从中随机地抽取出若干群来,对被抽中群的所有单位进行调查的一种抽样组织形式。
由于抽样单位比较集中,限制了样本单位在总体分配中的均匀性,所以有时代表性较低,抽样误差较大。
一般采用整群抽样通常都要增加一些样本单位,以缩小抽样误差,提高估计的准确性。
1002抽样方法首先对所要研究的总体根据需要划分出群的单位;其次把各群按时间顺序或空间顺序排列编号;最后可按筒单随机抽样或等距抽样的方法抽取样本群。
101(五)阶段抽样抽样调查中,如果抽出的样本单位直接就是总体单位叫做单阶段抽样,如简单随机抽样,类型抽样。
如果先将总体进行分组,从中随机抽出一些组,然后再从中选的组中随机抽取总体单位,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 统计 方法