第九章二阶与多阶抽样(抽样调查理论与方法-北京商学院.pptx
- 文档编号:13996117
- 上传时间:2023-06-19
- 格式:PPTX
- 页数:44
- 大小:856.04KB
第九章二阶与多阶抽样(抽样调查理论与方法-北京商学院.pptx
《第九章二阶与多阶抽样(抽样调查理论与方法-北京商学院.pptx》由会员分享,可在线阅读,更多相关《第九章二阶与多阶抽样(抽样调查理论与方法-北京商学院.pptx(44页珍藏版)》请在冰点文库上搜索。
第九章二阶与多阶抽样,二阶抽样与分层抽样、整群抽样的一个共同特点是:
将总体分为若干个群;所不同的是:
分层抽样是每个群内都进行抽样,整群抽样是抽若干个群再在群内普查,而二阶抽样则是抽若干个群再在群内抽样。
因此,可将分层抽样与整群抽样看作是二阶抽样的特殊情况。
在整群抽样中,如果抽中的群内所含的次级单元个数相当地多,此时对该群作普查会感到“心有余而力不足”。
特别当群内的次级单元差异不大,即比较大,这种情形下对群内所有的次级单元一一访问似乎完全没有必要,一个省时省钱又省力的念头会在调查者的头脑中油然而生,何不在抽到的群内再作一定方式的抽样呢?
这种在选中的初级单元中再进行抽样的方法称为二阶抽样。
倘若在抽取的次级单元中又包含许多更次一级的单元,在这些单元中继续抽样就自然地称为三阶抽样。
二阶与多阶抽样的优点:
1、它具有实施上的方便,比如在编制抽样框时那些没有被抽到的群或次一级群内的单元就没有必要也去编制抽样框。
仅需对那些已抽中的单元才去准备下一级单元的抽样框,而且许多抽样调查常常采用行政系统及隶属单元,这给多阶抽样本身创造了有利的条件。
另外,多阶抽样方法可以用到关于散料的抽样。
所谓散料是指连续松散的不易区分为个体或抽样单元的材料。
例如,煤、粮食、水泥、化肥等原料的质量检测,此时抽样单元常常需要人为划分,一般取自然单位,诸如一公斤、一杯子等;而初级单元则为包装袋、一卡车、一个车皮等。
这种数量众多的散料的质量检测采用二阶或多阶抽样也许是最有效的手段。
为方便,本章主要讨论二阶抽样。
2、能够满足各级政府部门对抽样调查资料的需求。
因为各级政府领导都关心全国和本地区、本部门的社会经济发展状况,希望抽样调查能同时满足全国性和地方性的需要。
因而采用二阶或多阶抽样,在一定程度上能够满足各级政府、部门对调查资料的需求。
3、有利于减少抽样误差、提高抽样估计精度。
这种抽样调查方法,可以使每个一阶样本单位分布比较均匀,具有很好的代表性;对于方差大的阶段多抽些样本单位以提高精度。
先作一些基本假设:
(1)初级单元中包含的次级单元个数同为M,因此在抽中的初级单元中再抽取的次级单元个数也相等,记为m。
1初级单元大小相等的二阶抽样,
(2)两个阶段的抽样方法都是简单随机抽样。
(3)在抽中的若干初级单元中作第二阶抽样是相互独立进行的。
再引进一些必要的记号:
表示第初级单元中第个次级单元,表示样本中第初级单元中第个次级单元的观测值,第初级单元总和,第初级单元平均值,总体平均值,初级单元(群)内的方差,总体中初级单元(群)间方差,将改为,N改为n,M改为m,则为相应的样本指标值,第i群内次级单元间的方差记为:
显然有所有的平均数。
1、估计量及其方差,总体平均数的估计是用样本平均数进行估计的,容易证明,这个估计量是的无偏估计。
其方差为:
(9.1),其中,,总体总数的估计为:
方差的无偏估计为:
总体平均数95的置信区间为,总体总数95的置信区间为,例9.1:
新华书店某柜台上月共用去发票70本,每本100张,现随机从中抽出10本,每本随机抽出15张发票,得到数据如下表:
给出上月柜台营业总额的估计及其方差。
解:
N=70,n=10,M=100,m=15,故上月柜台营业总额的估计为157108.00元,标准差为元,营业总额95的置信区间为,2、最优抽样比,如果初级单元(或群)之间的旅行费用不占重要地位的话,常采用简单线性费用函数:
二阶抽样存在两次概率抽样,因而存在两个抽样比因此我们面临的问题是:
(1)在总费用给定的条件下,如何确定与而使的方差达到最小;
(2)在给定估计量的精度条件下,如何确定与以使总费用最小。
其中是基本费用,是每调查一个初级单元与次级单元所花费的费用。
(9.3),将方差表达成:
(9.4),于是,在固定C下极小化或在固定下极小化C均等价于使下式极小化:
其中:
。
但这里要求。
假如,表明群内差异明显地大于群间的差异,因此对于抽到的群来说,最好作全面调查才能保证样本的代表性,此时总使mM。
现考虑,(9.5),在(9.5)式中,由于都是常数,为使(9.5)达到最小,只要,(9.6),达到最小,这两个加项的乘积恰好为常数,因此只要这两项相等就可使Q达到最小,此时应取,一般地,不是整数,记为的最小整数部分,那么(为的小数部分,且)。
如果,则取,如果,则取,易见,对于的小数部分大于或等于0.5的情况,我们总取,这符合通常的“五入”规则,是否“四舍”?
当时,就要看的最小整数部分的大小了。
由m的选取,代入(9.3)或(9.4)立即可以得到n的数值。
3、分层二阶抽样,所谓分层二阶抽样就是将总体分为k个层,在每层内进行二阶抽样。
比如,一所大学有8个系,每个系有若干个班级,每班大约人数为40人,为了解学生的情况需要作一次抽样调查,在每个系都随机抽几个班,再在抽中的班级里抽取若干人的简单随机抽样,这就构成二阶分层抽样。
本节讨论的二阶分层抽样,假设在同一层内初级单元大小相等,但不同层可以不相等。
设第h层含个初级单元,每个初级单元包含个次级单元,于是总体中共含有个次级单元。
又假设在第h层按照简单随机抽样方法抽取个初级单元,在每个被抽中的初级单元中再抽取容量为的简单随机抽样。
设第h层中样本的(二阶抽样)平均数为,因此按照分层估计的技巧,总体的(按次级单元)平均数的分层二阶估计量为:
(9.8),其中为第h层(按次级单元)的层权:
(9.9),由于各层的抽样相互独立,而由二阶抽样的有关讨论,的方差及其方差估计是已知的,因此:
(9.11),(9.12),其中分别为第h层中的两个抽样比。
和是第h层中的群间和群内方差,与是第h层中样本的群间和群内方差。
显然,总体总和的分层二阶抽样估计为:
(9.13),其方差及其方差估计为:
在分层二阶抽样中当然也存在最优抽样比的问题,不过此时假定费用函数一般应当与“层”有关系:
(9.14),固定费用C而使方差达到最小或方差有一定精度要求下使费用达到最小,此时的最优选择为:
(9.15),其中总假设对所有的h,都有。
2初级单元大小不等的二阶抽样,在实践中,除少数情况外,初级单元的大小不一定相等当然理想一些的情况,我们在分群时就注意到先将单元按照大小分层,使得同一层中初级单元大小相等,然后利用上面所讲的分层二阶抽样的办法来做。
只可惜在实际操作中,分层分群常常有一些“自然”形式,例如从行政系统划分等。
因此,我们只能面对初级单元大小不等的情形,由于初级单元大小不一样,合理的手段是对初级单元采用不等概率抽样。
先给出一些相关的记号:
表示第初级单元中第个次级单元,第初级单元总和,第初级单元平均值,总体总和,总体平均数(按次级单元),总体平均数(按初级单元),第i初级单元内方差,1、只抽取一个初级单元情形(n=1),先考虑从N个初级单元中随机选取1个以推断总体.这种情形看起来似乎很特殊,但在生活中也不少见,例如在随机地选的一个班级中抽取几个人进行考试以测试全年级的教育质量。
只选取1个单元,仍有等概率与不等概率之分.,
(1)等概率抽取初级单元,考虑对总体平均数的估计.,首先使用抽中的初级单元中的样本平均数对进行估计,(9.16),对第i初级单元来讲,由盒子模型可知,是的无偏估计。
由于第i个抽样单元是等概率抽取,相当于从盒子中等可能抽取一次,那么所得之数一定是这个盒子平均数的无偏估计,即,而,那么不是的无偏估计,而是有偏估计!
因此,对只能求均方误差:
作为的有偏估计,的均方误差由三部分构成:
一是由偏倚引起的平方和,这就是(9.17)式右边的第一项;二是按初级单元(此时初级单元的特征指标当然只能是其平均数)而计算的总体方差,(9.17)式右边的第二项恰好体现出这一点;最后一部分是初级单元中次级单元的方差平方和,这恰好是(9.17)式右边的第三项。
从的表达式可以看出,其第一项和第二项都与的选择没有任何关系,倘若要尽力减少误差,目标自然注意到第三项,然而第三部分是无法知道且也是无法估计的,因为既然我们只选取一个初级单元,又如何能估计所有的呢?
由于是二阶抽样,也不可能取。
在一般情况下,为了方便起见,常采用选取常数,不管取到哪一个初级单元,总抽预先指定好的样本容量,要不,取与成一定的比例比较合理一些。
不是的无偏估计这一缺陷是由“等可能”抽取而引起的,这时候每一个有着同等重要的地位而由于初级单元大小不同,在的构造中显然不是有着同等地位的,这个事实使我们找到了一个弥补“等可能”所引起缺陷的办法,那就是在构造估计量时考虑被抽到的初级单元的大小作为“权”:
(9.18),其中表示所有初级单元的平均大小。
这个估计的意义很清楚,它的乘以成为第i个初级单元内总和的估计,再乘以N成为总体总和的估计,这个估计除以作为的估计量是合理的。
(9.19),(9.20),的方差为:
应当指出,对弥补的只是“期望”或“平均”上的偏倚,至于在精度上是否获益则很难定。
例如,倘若各个初级单元的平均数比较稳定,而相距较大,引起前的系数的差异较大,这种场合下比起来变化范围显然大得多,效果就比较差。
(2)不等概率抽取初级单元,用等概率方法抽取初级单元对于大小不等的初级单元情形显然不太合理,精度较差是可想而知的。
一般地,我们采用的不等概率抽取法有如下几种:
按概率抽取到第i个初级单元,此时构造的估计量为:
(9.21),(9.22),即是的无偏估计量。
(9.23),抽取概率按预先指定的一组概率来实施,构造估计量为:
(9.24),(9.25),即是的无偏估计量。
(9.26),抽取方式与相同,但构造的关于的估计量为:
(9.27),此时,每个具有权,因此,(9.28),一般地,因此是有偏估计。
其均方误差为:
(9.29),Cochran构造了一个虚拟总体(N3)进行抽样以对上述五种方法进行比较:
例9.2Cochran(1977),N=3初级单元(大小不等)的虚拟总体,取,上表中最后一列的MSE是比较优劣的关键,尽管是无偏估计,但是效果最差。
同样是无偏估计,的效果最好。
这两个事实也表明了“无偏性”对于估计量的误差判断并非是决定性的,有时为了使均方误差小一些,人们宁可放弃无偏性,作为有偏估计其效果几乎不亚于。
注意到、三种方法都是不等概率抽样,与除了不同外其余均相同,由于与差异不大,因此的效果相对也就比较好。
而对于,尽管与相同,但对其估计量“刻意”要求无偏却引起了均方误差的很不理想!
2、抽取个初级单元情形,两个以上的初级单元里进行第二阶抽样,合理的基本假定是在不同的初级单元内的抽样过程相互之间独立。
为方便起见,仍像以前一样假定第二阶抽样为简单随机抽样,在这一小段讨论中,我们主要考虑总体总和的估计。
(1)初级单元按多项抽样方法抽取,显然,对第i个初级单元的总和可自然地找到无偏估计,以这些代替的话,那么整群抽样中的HansenHurwitz型估计无疑为提供了无偏估计:
(9.30),其方差为:
(9.31),其中,
(2)初级单元按简单随机抽取方式抽取,由于二阶抽样都是采用简单随机抽样形式,于是可对总体总和采用一个最为简单的估计形式:
(9.32),由于与是与的无偏估计,因此也是的无偏估计。
其方差为:
(9.33),方差的无偏估计为:
(9.34),其中,这类简单估计虽然形式简单,而且结构也容易为人们接受,同时又是总体的无偏估计,但是它的效果并不理想,方差显得较大。
(3)按不放回不等概率抽取初级单元,如果抽取到的第i个初级单元的总和估计为(简单随机抽样下的无偏估计),那么由第六章第二节易知,总体总和的二阶估计可采用如下形式的HorvitzThompson估计量。
现在考虑初级单元是按不放回不等概率抽取,而第二阶抽取仍为在抽取的初级单元中实行简单随机抽样。
那么在第一阶抽样中就存在包含概率。
(9.35),由于或是的无偏估计,又是的无偏估计,所以是的无偏估计。
其方差为:
(9.38),其中,方差的无偏估计为:
(9.39),其中,3三阶及多阶抽样,将有关二阶抽样的一些公式与估计推广到三阶乃至更高阶的情况是很现实的,其实基本上是依样画葫芦,只不过在符号与计算方面更为复杂些,尤其是对于各级单元大小都相等时更是如此,下面以三阶为例。
1、各级单元大小均相等时的三阶抽样,设总体中含有N个初级单元,每个初级单元包含M个次级单元,而每一个次级单元均包含K个三级单元。
各阶的抽样容量分别为n、m、k,引进一些必要的记号:
表示第初级单元中第个次级单元里第个三级单元,第初级单元中第次级单元总体平均数,第初级单元中第次级单元样本平均数,第初级单元总体平均数,第初级单元样本平均数,总体平均数,样本平均数,如果三阶抽样均为简单随机抽样,则有以下结论:
即是总体平均数的无偏估计。
其中,(9.42),2、多阶抽样中不等概率抽样的应用,一般地,各级单元大小常常并不相等,因此普遍采用不等概率抽样,这样不仅合理,能被接受,而且自然提高效率比如,三阶抽样均采用多项抽样形式,各阶样本量仍分别为n、m、k,而抽样概率分别为:
且,那么总体总和的无偏估计为:
(9.43),其方差为:
(9.44),方差的无偏估计为:
(9.45),高阶抽样是复杂抽样,不但每一阶抽样可以采用不同的概率抽样形式,即使在同一阶的抽样中,各单元内进行的抽样形式也将视该单元的情况而采用不同的概率抽样形式。
因此,在构造一个好的合理的估计量时,必须相当小心谨慎,在计算和作出估计量方差估计的过程中尤其要注意,通常大规模的抽样调查就是这种复杂的多阶抽样。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 章二阶 抽样 抽样调查 理论 方法 北京 商学院