抽样调查抽样误差与抽样估计.pptx
- 文档编号:18858112
- 上传时间:2024-02-01
- 格式:PPTX
- 页数:81
- 大小:498.87KB
抽样调查抽样误差与抽样估计.pptx
《抽样调查抽样误差与抽样估计.pptx》由会员分享,可在线阅读,更多相关《抽样调查抽样误差与抽样估计.pptx(81页珍藏版)》请在冰点文库上搜索。
统计学统计学盐城师范学院商学院盐城师范学院商学院第五章抽样调查第五章抽样调查24年2月1日1本章内容第一节抽样调查概述第二节抽样调查的数理基础第三节抽样误差与抽样估计第四节抽样调查的组织方式24年2月1日2第一节第一节抽样调查概述一、抽样调查的概念、特点及作用二、抽样调查中的基本概念三、抽样方法四、抽样调查的设计24年2月1日3一、抽样调查的概念、特点及作用
(一)抽样调查的概念抽样调查是按照随机原则从总体中抽取样本进行调查,得到样本资料,并根据样本资料对总体数量特征作出具有一定可靠程度的估计和推断,以达到认识总体的一种统计方法。
也称为抽样推断、抽样估计或统计推断。
例:
某地进行水质监测,考察河水中某种污染物质是否超标。
从河水中按照一定地点定时取样检验,根据检验结果推断河水中污染物是否超标。
24年2月1日4推断总体指标(参数)样本指标(统计量)(红色表示样本)24年2月1日5
(二)抽样调查的特点1、其方法相比,省、省力、快捷与它调查时;2、根据本料体的量特征作出具有样资对总数一定可靠性的估和推;计断3、按照机性随(同等可能性)原体中则从总抽取本位;样单4、可以根据料在之前算和控制抽资调查计样差。
误24年2月1日6(三)抽样调查的作用1、某些象不可能行全面,但又需要了解现进调查全面料,就采用抽方法。
资时样调查2、某些理上可以行全面,但上论进调查实际难以到的象,可以采用抽。
达现样调查3、可以全面的果行价和修正。
对调查结进评4、抽可用于工生程中的量控制样调查业产过质。
5、可以某些体的假行,判假对总设进检验来断的,策提供依据。
设真伪为决24年2月1日7(四)抽的型样调查两种类一是估:
类参数计是根据本行取得的据,然后它对样进观测数对研究象整体的量特征取出估方法。
对数值给计另一是假:
类设检验是根据本行取得的据,然后它对样进观测数对研究象的量律性是否具有某指定特征对数规种进行。
检验24年2月1日8例:
2005年中消者的主是“健康国费协会题维”。
假定我是消者的人,治权们费协会检查员理缺斤少的不法行。
可口可公司的两为对乐产品行,他生的一装雪碧,包装进检查们产种瓶上明其含量是标净500ml,在市上机抽取场随了50,得到其平均含量瓶测为499.5ml,准标差为2.63ml。
取得些据我可以:
这数们一是做一估:
包装的雪碧平均含量在个计该种498.77-500.23ml之,然后向消告;间协写份报(估)参数计二是一裁:
“可口可公司有欺消者个决说乐骗费的行”的据不足。
(假)为证设检验24年2月1日9
(一)全及总体和个体1、全及总体(总体,母体):
它是由具有同一性质的许多单位组成的集合体,是指所要认识的对象。
2、个体(总体单位),组成总体的各个单位称为个体。
(二)抽样总体(样本,子体)从总体中按照一定的原则和方法抽取出来的部分个体组成的结合体。
样本容量:
一个样本中包含的个体(总体单位)数。
n30大样本n30小样本二、抽样调查中几个基本概念24年2月1日10(三)体指和本指总标样标1、体指(全及指、):
是根据总标标参数它总体所有位的志或志特征算的、反映单标值标计体某性的合指。
总种属综标体指是一确定的。
总标个值2、本指(抽指、量):
由本样标样标统计它样各位志或志特征算的合指。
个单标值标计综标本指是一机量。
样标个随变3、抽中常用的指样调查标平均(均)、方差或准差、比例(是数值标非志比重)标24年2月1日11体和本指及符照表总样标号对指名标称体总本样位单数Nn平均数或准差标s方差是非志比例标(成)数或P、Qp、qx2s224年2月1日12X是非标志(交替标志)的比重(成数):
是非标志的标志表现只有“是”与“非”两种结果,将其数量化,通常以1代表具有所研究特征的变量值,以0代表不具有所研究特征的变量值。
当总体单位数为N时,假定具有所研究特征变量值的单位数为,不具有所研究特征变量值的单位数为,且1N0N总体样本24年2月1日1301NNNNN1NN01pnnnnnqnnP1,101是非标志的平均数与标准差计算是非标志X10PQP01P0PQ2PP2Q合计1PQ2P+P2QffffXXXffXX2)(是非标志的算术平均数为:
ffXX=p是非标志的标准差为:
ffXX2QPPQ22=24年2月1日14P)P(1三、抽样方法1、重抽(重置抽,有放回的抽):
是复样样样指全及体从总N位中机抽取一容量个单随个为n的本,每次抽中的位登其有志表样单经录关标后又放回体中重新加下一次的抽。
现总参选2、不重抽(不重置抽,无放回的抽)复样样样:
是指全及体从总N位中机抽取一容个单随个量为n的本,每次抽中的位登其有样单录关标志表后不再放回体中加下一次的抽。
现总参选例例24年2月1日15111500050005000LL,111500049994998LL,3、抽样框与样本的可能数目抽样框:
是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。
它是进行概率抽样的必要条件。
样本的可能数目:
它是指从总体N个单位中随机抽选n个单位构成样本,结果有排列组合,一种排列组合便构成一个可能的样本,排列组合的总数称为样本的可能数目。
如下表:
24年2月1日16抽样方法重置抽样不重置抽样考虑顺序不考虑顺序24年2月1日17nNA)!
(!
nNNPAnN)!
(!
nNnNCAnN-(-)!
(-)!
nNnNnCNn+=111四、抽样调查的设计1、界定调查总体2、选择收集资料的方式3、选择抽样框4、设计抽样技术5、设计样本和抽取样本6、评估样本24年2月1日18第二节抽样调查的数理基础一、随机变量的概率分布二、随机变量的数字特征三、常用的随机变量的分布四、大数定律与中心极限定理五、抽样分布(本节内容见教材,只需了解结论)24年2月1日19第三节抽样误差与抽样估计一、抽样误差的概念二、影响抽样误差的因素三、抽样平均误差四、抽样极限误差五、抽样估计的可靠程度六、抽样估计方法七、样本容量的确定24年2月1日20一、抽样误差的概念1、统计误差:
调查得到数据资料与实际情况的差别称为统计误差。
统计误差=样本指标-总体指标2、统计误差的种类:
24年2月1日21铑铑登登记记误误差差系系统统性性误误差差统统计计误误差差代代表表性性误误差差实实际际误误差差随随机机误误差差抽抽样样平平均均误误差差3、抽样误差:
它是指在抽样调查过程中,在遵守随机原则抽样的条件下,仍然会产生的样本指标与总体指标之间的差别。
抽样误差既是一种随机性误差,也是一种代表性误差,它是无法避免的,但它是可以利用大数定律计算出来的并能够通过设计抽样程序控制其大小。
24年2月1日22px或,二、影响抽样误差的因素1、样本容量的大小;2、总体被研究标志的变异程度;3、抽样方法的选择;4、抽样的组织形式。
24年2月1日23三、抽样平均误差
(一)抽样平均误差的概念抽样平均误差是抽样平均数或成数的标准差。
抽样平均误差就是说明各个抽样平均数或抽样成数与总体平均数或总体成数之间的平均误差。
抽样平均误差是我们用样本指标来估计或推断总体指标时,计算误差范围的基础。
24年2月1日24抽平均差的理算公式:
样误论计MxUMix12)(MpUMip12)(式中以分代表抽平均或抽别样数样成的平均差,数M表示本的可能目。
样数例举上述平均差公式只能用解平均差的误来释误概念,在中无法用。
因:
实际问题应为首先,体的平均或成通常未知;总数数其次,也很出全部本的平均或成。
难给样数数pxUU和24年2月1日25抽平均差的算公式样误实际计1、抽样平均数的抽样平均误差当抽样方式为重复抽样时,样本标志值x1,x2,xn是相互独立的,样本变量x与总体变量X同分布。
用数理统计知识证明,得:
nnux2重复抽样抽样平均误差公式24年2月1日26当抽样方式为重复抽样时,样本标志值x1,x2,xn是不相互独立的。
用数理统计知识证明,得:
不重复抽样抽样平均误差公式12NnNnux24年2月1日27不重复抽样误差的近似公式与重复抽样误差公式的区别是公式中多了一个。
这是一个修正系数,也称为校正因子。
当N很大时,分母上可以不减去1。
可以近似的表示为:
Nn1Nnnux1224年2月1日28解:
在重复抽样条件下为:
在不重复抽样条件下为:
公斤5.040010222nsnux公斤49.08000400140010122Nnnux【例】从某校8000名学生中随机抽取400人,称得其平均体重为58公斤,标准差为10公斤,计算抽样平均误差。
24年2月1日292、抽样成数的抽样平均误差抽样成数的抽样平均误差表明各样本成数的绝对离差的平均水平。
用于将属性总体变化为变量总体。
(1)重复抽样抽样平均误差公式为:
nup1或总体资料样本资料24年2月1日30nppp)1(
(2)不重复抽样抽样平均误差公式为:
11NnNnup总体资料样本资料Nnnup11或或一般总体的成数是未知的,通常是用样本的成数p来代替公式中的总体成数。
24年2月1日31)1)1(NnN(nppp)1)1(Nn(nppp【例】有一批食品罐头共60000瓶,从中随机抽取300瓶,发现有6瓶不合格,求合格率的抽样平均误差。
解:
合格率:
在重复抽样条件下为:
%9898.03006300p%81.000808.030098.0198.01nppup%81.000806.060000300130098.0198.011Nnnppup在不重复抽样条件下为:
24年2月1日32四、抽样极限误差抽样平均误差只是衡量误差可能范围的一种尺度。
它并不等同于抽样指标与总体指标之间的真实误差。
由于总体参数是一个确定的常数,而样本估计量会随抽取的样本不同而围绕总体参数上下随机取值。
因此,样本统计量与总体参数之间存在一个误差范围。
所谓抽样误差范围就是指变动的样本统计量与确定的总体参数之间离差的可能范围,它用样本估计值与总体参数的最大绝对误差范围来表达。
统计上称这一误差范围抽样极限误差或抽样允许误差。
24年2月1日33设和分别表示样本平均数和样本成数的抽样极限误差,则有:
xpxppxpx,上式表明,抽样平均数或抽样成数在或之间变动。
将上面绝对值不等式展开可得:
xpppxxpx不等式表明,样本平均数是以总体平均数为中心,在之间变动的;样本成数是以总体成数为中心,在之间变动的。
xxpp24年2月1日34抽样误差范围是以或为中心的两个的距离。
这是抽样极限误差的原意。
但由于总体参数是未知的常数,而样本估计值是可以通过调查求得的,因此,可以把上面的两个不等式改写成等价的另一种形式,即:
ppxxppxx可见,抽样极限误差的实际意义就是希望总体平均数落在抽样平均数的范围之内;总体成数落在抽样成数的范围之内,这个范围也称为置信区间。
xxpp24年2月1日35对于一个总体来说,当抽样方式以及样本的单位数确定后,抽样误差就是个确定的值,而抽样极限误差则是根据不同情况和精确程度,由人们来确定其大小的。
因此,抽样极限误差常常以抽样平均误差(或)为单位来衡量,并且把抽样极限误差(或)除以抽样平均误差(或)所得的数值叫做概率度。
若以z表示概率度,则有:
xpxpxpppxxzz,若事先确定概率度z的大小,则可以得到抽样极限误差为:
ppxxzz,24年2月1日36五、抽样估计的可靠程度(置信度)由于抽样平均数是一个随机变量,由中心极限定理可知:
n当充分大时,就服从正态分布,从而服从标准正态分布。
这样我们就可以在确定的误差范围下,求出相应的概率大小,而抽样极限误差的大小又可确定相应概率度的大小,这样如先确定概率度为z,则可求得相应的概率(置信度)为:
30nxxxdzezxPzxPzzxx0222124年2月1日37上式就是抽样平均数落在之间的概率,如总体平均数未知,则上式也可以看作是落在之间的概率。
xxzxz上述的积分值要查正态分布概率表求得。
现将常用的概率度z与相应的概率的几个数值对应列表如下:
)(zF概率度概率度z11.651.9622.583概率概率F(z)0.68270.90000.95000.95450.990.9973可以看出:
当确定的抽样极限误差愈大,则概率度z也就愈大,相应的概率也愈大,即样本指标落在指定范围的可能性也愈大;反之,则相应的概率就减少。
24年2月1日38说明:
对总体指标估计的范围(置信区间)的测定总是在一定的概率保证程度下进行的,因为既然抽样误差是一个随机变量,就不能指望抽样指标落在置信区间内成为必然事件,只能视为一个可能事件,就要用一定的概率来给予保证。
抽样误差的可能范围是估计的准确性问题,所以抽样估计可靠程度又称置信度(概率)。
置信度是总体指标落在某个区间的概率把握程度。
24年2月1日39六、抽样估计方法(总体参数估计)
(一)点估计1、点估计,也称定值估计,就是以样本估计量直接代替总体参数的一种推断方法。
当已知一个样本的观察值时,便可得到总体参数的一个估计值。
如在某校学生体重的调查中,获知抽取的400名学生的平均体重为58公斤,则我们说该校8000名学生的平均体重也是58公斤。
这种推断就是对总体平均数作了点估计。
24年2月1日40点估计的优点:
能够提供总体参数的具体估计值,可以作为行动决策的数量依据。
2、点估计常用的方法有两种:
矩估计法和极大似然估计法。
矩估计法是英国统计学家KPearson提出的。
其基本思想是:
由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。
矩估计法简单、直观,而且不必知道总体的分布类型,所以矩估计法得到了广泛应用。
24年2月1日41极大似然估计法是由Fisher,提出参数估计方法。
其基本思想是:
设总体分布的函数形式已知,但有未知参数,可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大的值作为的估计值,记作,称为的极大似然估计值,这种求估计量方法称为极大似然估计法。
3、点估计量的优良标准
(1)无偏性如果样本统计量的数学期望等于所估计的总体参数的值,该样本统计量称作总体参数的无偏估计量。
也就是说:
24年2月1日42的无偏估计量。
为则若,)(E
(2)一致性:
一致性要求用样本估计量估计和推断总体参数时要达到:
样本容量n充分大时,样本估计量充分靠近总体参数,即随着n的无限增大,样本估计量与未知的总体参数之间的绝对离差小于任意给定的正数的可能性趋近于1的概率,即几乎是一定发生的。
根据概率论中的大数定律可知:
对于任意给定的正数有:
1;1limlimpPxPnn24年2月1日43(3)有效性有效性要求样本估计量估计和推断总体参数时,作为估计量的标准差比其它估计量的标准差小。
即:
设是参数的两个无偏估计量,若的方差比的方差小,则称比有效。
24年2月1日441212214.几种总体参数的点估计量
(1)总体平均数的点估计量
(2)总体标准差的点估计量(3)总体成数和点估计量24年2月1日45nxx1)(2nxxsnnp1
(二)区间估计总体参数的区间估计就是依照一定的概率保证程度,用样本估计值估计总体参数取值范围的方法。
设总体参数为,、是由样本确定的两个统计量,对于给定的(),有:
=1-则称(、)为参数的置信度为1-的置信区间。
该区间的两个端点、分别称为置信下限和置信上限。
置信区间的直观意义:
若作为多次同样的抽样,将得到多个置信区间,其中有的区间包含了总体参数的真值,有的区间没有包含总体参数的真值。
LU10)(ULpLULU24年2月1日461-为置信度,亦称为置信水平或置信概率,置信度表达了参数区间估计的可靠性。
置信区间越小,说明估计的精确性越高;置信度越大,估计可靠性就越大。
一般说来,在样本容量一定的前提下,精确度与置信度往往是相互矛盾的:
若置信度增加,则区间必然增大,降低了精确度;若精确度提高,则区间缩小,置信度必然减小。
要同时提高估计的置信度和精确度,就要增加样本容量。
区间估计必须同时具备三个要素,即具备估计值、抽样极限误差和概率保证程度三个基本要素。
24年2月1日47【例】某公司有职工3000人,从中随机抽取60人调查其工资收入情况。
调查结果表明,职工的月平均工资为2350元,标准差为193元,月收入在2000元及以上职工40人。
试以95.45%的置信水平推断:
(1)该公司职工月平均工资所在的范围;
(2)月收入在2000元及以上职工在全部职工中所占的比重。
24年2月1日48解
(1)依题意计算如下:
67.24300060160193122NnnsxF(z)=95.45%,查表得z=234.4967.242xxz?
34.239966.230034.49235034.492350xxxx计算结果表明,有95.45%的把握说该公司职工月平均工资在2300.66到2399.34元之间。
24年2月1日49
(2)月收入在2000元及以上职工在全部职工中所占的比重为:
%02.63000601606667.016667.011%67.666040Nnnpppp%04.12%02.62ppz%71.78%63.54%04.12%67.66%04.12%67.66pppp计算结果表明,有95.45%的把握说该公司月收入在2000元及以上职工占全部职工的比重在54.63%到78.71%之间。
24年2月1日50区间估计的基本步骤:
第一步:
根据样本资料,计算出样本平均数或样本成数、标准差等;第二步:
计算抽样平均误差;第三步:
根据给定的概率(置信度)要求,查正态分布概率表得到相应的临界值;第四步:
计算抽样限误差;第五步:
给出估计区间(置信区间)。
24年2月1日51七、样本容量的确定
(一)影响必要样本容量的因素1.总体各单位标志变异程度的大小。
总体标志变异程度越大,要求样本容量要大些;反之则相反。
2.抽样极限误差的大小。
抽样极限误差越大,要求样本容量越小;反之则相反。
3.抽样方法。
在其他条件相同时,重复抽样比不重复抽样要求样本容量大些。
4.抽样的组织方式。
5.抽样推断的概率保证程度的大小。
概率越大,要求样本容量越大;反之则相反。
24年2月1日52
(二)平均的必要本容量数样1.重抽复样nzzxx2由公式可得:
222xzn2.不重抽复样Nnnzzxx12由公式可得:
22222zNNznx24年2月1日53【例】某批发站欲估算零售商贩的平均每次进货额,根据历史资料进货额的标准差为1000元,假定到批发站进货的商贩有2000人,若要求置信水平为99.73%,抽样极限误差不超过250元,应该抽取多大的样本?
解:
里有明采用的抽方法,可按上述公式分这没说样两个算其必要本容量,别计样F(z)=99.73.%,z=3重抽件下的必要本容量:
复样条样?
14425010003222222xzn不重抽件下的必要本容量复样条样:
?
13533.1341000325020001000320002222222222zNNznx24年2月1日54(三)成的必要本容量数样1.重抽复样nppzzpp1由公式可得:
221pppzn2.不重抽复样Nnnppzzpp11由公式可得:
ppzNppNznp1122224年2月1日55【例】某社区想通过抽样调查了解居民参加体育活动的比率,如果把误差范围设定在5%,问如果以95%的置信度进行参数估计,需要多大的样本?
解:
F(z)=95%,z=1.96根据公式得:
2222%55.05.096.11pppzn=384.16385(人)注意:
题目中为什么用0.5来替代p?
p(1-p)在p=0.5时取得极大值,证明很容易,当p未知时,就可以用0.5来替代。
24年2月1日56第四节抽样调查的组织方式一、简单随机抽样二、分层抽样三、等距抽样四、整群抽样五、多阶段抽样六、非概率抽样24年2月1日57一、简单随机抽样简单随机抽样又叫纯随机抽样,是最简单、最普遍的抽样组织方法。
它是按照随机性原则直接从总体的全部单位中,抽取若干个单位作为样本单位,保证总体中每个单位在抽选中都有同等被抽中的机会。
简单随机抽样在理论上是最符合随机抽样原则的。
前面我们所讨论的有关抽样误差的计算公式都是在简单随机抽样条件下得到的。
随机抽选样本单位的具体做法有如下三种:
24年2月1日581.抽签法2.随机数字表法随机数字表,是由0到9这十个数码随机排列组成的多位数字表。
在使用前,先将总体的全部单位编号,并根据编号的位数确定使用表中数字的列数;然后,从任意一行、任意一列、任意方向开始数,遇到编号范围内的数字就作为样本单位,超过编号范围内的数字就跳过去,直到抽够样本单位数目为止。
3.计算机软件中的随机函数产生随机数的功能24年2月1日59二、分层抽样1、概念:
分层抽样也称为分层随机抽样,或类型抽样。
它是把调查总体按其属性不同分为若干层次(或类型),然后在各层(或类型)中随机抽取样本。
2、样本单位的抽取先分层(分类),确定每一层中抽取的单位数;然后在每一层中按随机原则抽取样本单位。
例:
24年2月1日60例某在有居民20,000,中抽户从选200户家庭行力。
其中高收入居民家庭进购买调查户为4000,中收入家庭户户为12000,低收入家户户庭4000。
用分比例抽法确定各的户试层样层样本目。
数各抽取的本目是:
层应样数24年2月1日61确定了高、中、低收入各本目后,再按户层样数机抽各中分抽取单纯随样从层别40、户120户、40家庭行力,最后推出户进购买调查汇总断体的力的。
总购买数值3、抽平均差的算样误计重抽差公式:
复样误为不重抽差公式:
复样误为nsx2Nnnsx12其中:
kiiisnns1221(各方差的平均)层数24年2月1日62【例】某地有【例】某地有10000名劳动力,其中:
从事农业劳动名劳动力,其中:
从事农业劳动的有的有7000人,从事工业劳动的有人,从事工业劳动的有3000人,现按两人,现按两类人数的比例抽取类人数的比例抽取100人,计算各相关指标如表人,计算各相关指标如表6.2,请以,请以95%的置信水平推断该地人均收入的区的置信水平推断该地人均收入的区间。
间。
各组平均收入与标准差各组平均收入与标准差iNinixis全部人数抽样人数样本平均数样本标准差类型从事农业70007075025从事工业300030100030解:
由于该例题中抽样总体仅占全及总体的解:
由于该例题中抽样总体仅占全及总体的1%,故,故可采用重复抽样公式来计算。
具体计算如下:
可采用重复抽样公式来计算。
具体计算如下:
元82510003075070100111kiiixnnx5.707303025701001122122kiiisnns24年2月1日63元65.21005.7072nsxF(z)=95%,z=1.96?
19.565.296.1xxz?
19.83081.81919.582519.5825xxxx故有故有95%的把握说,该地人均收入在的把握说,该地人均收入在819.81元到元到830.19元之间元之间。
24年2月1日64三、等距抽样等距抽样也称为等距离随机抽样或系统抽样,它是先将总体中各单位按一定标志顺序排列,并根据总体单位数和样本单位数计算出抽样距离,然后按相同的距离或间隔抽选样本单位。
排列顺序可用与调查项目有关的标志为依据,如在购买力调查中,按收入多少由低至高排列,也可用与调查项目无关的标志为依据,如按户口册、姓名笔划等排列。
24年2月1日65l抽隔算公式:
样间计为例:
某市有零售商店420,要中抽取户现从10商店今年洗衣粉需求量。
用等距离抽户调查样法生本位。
其具体步如下:
产样单数骤体将调查总420零售商店行,户进编号从1到号编420。
号算抽隔。
计样间24年2月1日66在第一抽隔,机生第一本的个样间内随产个样,即在号码142,机一字,假如间随选个数20,就是第一本位的。
它个样单号码按抽隔,抽取所有的本位,即每隔样间样单42生一本位,依次:
产个样单它们为20,62,104,146,188,230,27
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 抽样调查 抽样误差 抽样 估计