非参数统计论文.docx
- 文档编号:1990756
- 上传时间:2023-05-02
- 格式:DOCX
- 页数:9
- 大小:67.24KB
非参数统计论文.docx
《非参数统计论文.docx》由会员分享,可在线阅读,更多相关《非参数统计论文.docx(9页珍藏版)》请在冰点文库上搜索。
非参数统计论文
题目 非参数统计的运用
姓名 梁增聪
班级 107010202
学号 11
非参数统计的应用
摘要:
本文主论述了非参数估计的符合检验、秩检验的理解与运用,以及游程检验在人口估计中的运用。
关键字:
符号检验 游程检验 非参数估计
引言:
非参数统计作为数理统计学的分支,是解决很多不知道数据分布的问题的主要方法,通过运用非参数方法可以对事物起建立统计模型和数学描述。
1、非参数估计的理解
对计量资料进行统计分析,常对计量资料进行统计分析,常用用方法有两类——参数统计和非参数统计。
t检验、方差分析和直线相关回归分析都属于参数统计方法。
参数统计方法要求的前提条件是,资料应服从或近似服从正态分布,t检验、方差分析还要求方差具有齐性。
当前提条件不满足时,就不应选用参数统计方法。
符号检验、秩和检验属于非参数统计方法。
非参数统计方法对资料不要求必须是正态分布,也不要求方差必须具有齐性。
当对资料的分布情况及方差情况不清楚或没把握,或者经过检验不满足正态分布或方差齐性的要求时,就应当选用非参数统计方法对资料进行统计分析。
1.1、非参数估计
非参数检验又称分布自由检验.主要是不受总体分布的限制,不假定总体分布的具体形式,尽量从数据或样本本身获得所需要的信息,通过估计二而获得分布的结构,并逐步建立对事物的数学描述和统计模型的方法称为非参数估计。
1.2非参数估计方法
非参数检验不仅对资料分布没有特殊要求,除了用连续数量表示的的资料外,它还可以对样本数据的符号、等级程度、大小顺序等进行比较,加上方法简便,易于掌握,不要求复杂的计算工具,还可查表判断,能处理一些参数法处理不了的问题,因而应用更广泛,值得学习和推广。
常用的非参数统计方法有:
符号检验、秩和检验、秩检验、等级相关检验以及Ridit分析等。
符号检验又称优势检验它既可用于单组,也可用于成对数据,还可用于两组及多组数据的比较。
成对数据检验时,不得少于6对,以2O对以上效果较好。
符号检验通过一定的规则规定正号和负号的定义,对不能区分上升或下降,
即无变化者记作“0”,运用公式 来比较各组的优势,得出结论。
秩检验(Ranktest)用于多组数据的比较,亦有称多组秩和检验.与秩和检
验一样,也要对原始数据进行统一编秩。
求出备组秩和,再以各组秩和的平方与例教的比值求得的总和来计算H值(或z})'其检验假设是各总体的分布相
同.完全随机设计资料的比较对单周多组完全随机设计的数据采用的秩检验又称H检验。
当组数K>为3,每组例散n1n2n3均<5时,判断结果需查表7:
当
K>3,且每组例数均>5时,H分布近似χ2分布.以γ=K-1查χ2值表判断结果。
式中T为各组秩和n为组号),n为各组倒数,n为总倒数。
报据总n及n1n2n3及计算的H查表,当H(计算的)
秩相关检验系数为
通过公式可以求得r的值从而得出R与
S之间的相关性。
当r>0时表示RS正相关,r<0时负相关(其中-1 1.3非参数估计的优点 可以减少模型偏差。 传统参数方法依赖于对总体分布的假定,然而现实总体往往并不满足假定的分布形式,这就导致模型与现实相背离,产生模型偏差。 而非参数方法完全从数据本身获得所需的信息,无需对总体分布强加假定条件,可以选择与数据最为匹配的模型,从而正了传统参数方法可能导致的模型偏差。 具有稳健性。 适用范围广。 从数据角度看,非参数方法不仅像参数方法一样可用于处理定距、定比数据,还可用于定类、定序数据。 而定类、定序数据在社会科学领域大量存在,故其应用范围更广。 从模型角度看,因非参数方法假定条件较 少,也无需检验总体的参数,故其模型适应范围更广,在此具有广泛意义的模型基础上得出的结论也具有普遍意义。 简单易操作。 非参数统计的基本思想是: 在总体分布未知的情况下,根据与原来总体分布无关的秩及其统计量的分布进行统计推断。 可见非参数方法的核心是秩,即数据点从小至大的排列次序,其含义直观,易于理解。 因此,以之为基础构建的整个非参数统计体系也具有简单易操作的优势。 2、非参数统计应用 2.1、非参数在人口控制中的应用 非参数统计作为数理统计中较为独立的分支,由于具有不受样本分布形式的限制、应用范围广、发生模型错误的可能性较小、有较大的稳定性等特点,尤其是与我国人口量度发展过程特点相适应,提高了对人口政策实施评价的科学性系统性和准确性。 2.1.1人口自然增长率的置信区间预测和目标拉验 (1)人口自然增长率的置信区间预测 若随机变量的观察值x1,x2…xn,来自连续分布,且随随机变量观察值y1 P(x<πp),则当i 以理论上可以表述如下: (1)抽取一个 样本,并确定了其次序统计量,(νi,yi)就是未知分布的分位数的置信区间,并可计算置信系数r。 我国人口自然增长率 人口自然增 长率 1 0. 81 1 1. 23 1 1.5 4 11. 61 1 1.8 7 12 .00 14 .08 14 .20 14 .33 14 .39 14 .49 14 .55 符 号 1 y 2 y y3 y1 5 y y6 y7 y8 y9 0 y1 1 y1 y12 当 (1)式中,p=0.5时,分位数则为中位数。 中位数y0.5= 1(10.81+14.55)=12.68(%0) (1)式变为: 2 (2) 1(y1+y12)= 2 根据国家统计局公报,1990年末,全国总人口为114333万人。 以此为基数,各种方案的预测结果如表3所示。 表3表明,若我国人口控制政策保持1978-1989年水平.则: 1)到1995年底,我国人口总量将突破J2亿。 到本世纪末,人口总量突破13亿的可能性存在: 2)我国人口自然增长率的中位数为12.68%0。 预计到1995年底人口总量将达121768万人,到2000年年初人13总量将达128062万人. (2)目标检验 十二大我国制定的人口日标是本世纪末将人口总量控制于12亿以内,尽管我国人口控制政策实施绩效举世瞩目,然由于主客观原因,发展趋势表明该目标 较难宴现《纲要》明确指出: 我国人口控制的政策目标为今后五年和十年之内,人口自然增长率控制于1250‰以内。 本部分将根据1978~1989年已发生历史 绩效,通过Willcoxon检验技术,对该目标进行检验。 Willcoxon检验基于以下两个假设: l)总体的分布是连续的: 2)总体对其中位数是对称的。 设yi=|xi-π0| i=1,2….n其中xi为观察值,π0为目标值,yi为绝对偏差量。 以yi按递增次序得秩次Ri,再令xi-π0>0为正秩次,xi-π0<0为负秩次,以正秩次 n 之和w=åRii+1作为检验统计量;然后进行正秩和检验。 i=1 1978-1989年我国人口自然增长率样本显然符合Willcoxon检验条件: 0 1 H: 我国人口自然增长率1³2.50 000H: 我国人口自然增长率<12.5 000 将1我97国8人-1口98自9然增长率资料按秩次和检验的要求进行计算得表 4 å 12 i 所以W= Ri+1=12+11+6+10+8+9=56.当n=12时,查WilIcoxon带符号——样 i=1 本秩次和临界值表,得当显著水平为005时: W0=17,因为W,所>W以0接受H假设,1而拒绝H假设即o 若我国计划生育工作 维持现状,则《纲要》中制定的人口目标将难以实现。 (3)我国人口控制政策实施过程游程检验 游程检验是一种检验样本观察值随机性的方法,其目的旨在检验过程是否处于随机的控制状态。 我们把按中位数划分两部分的长度各为m(本例m=6)的序列 aaabbaabbbb中连续出现某一样本观察值的段称为游程,而将每个游程所包含某一样本观察值的个数称为游程长度。 设r、ai以rb及i 分别表示长度为的、I以a及和b的游a程数b, 则r,i=又ra设i+Rrbi、R以及aiR分b别i表示i长度不小于的、以及i和的a游b程数,a b 则Rai=årai,R,biR=åRrbi Ri,=、ai、+和ai、、Rbi的期Ri望R分ai别ra表i 述ri为r: bi i<¥ i<¥ 式中n=2m从理论上可以证明,当n较大时,总游程数R的分布近似于正态分布 N{E(R),D(R)}其中D(R)= n(1- 1)(9)分析表1中人口出生率时序数据,其 4 n-1 中位数在19%0-20%0现将其数据按时问次序排列起来。 凡小于中位数的以d表示,大于中位数的以b袁示.可得以下序列: aaabbaaabb,根据前述定义以及公式 f5]~(8)f导表5 根据以上结果可以检验以下假设: H0: 1978~1989年我国人口生育过程处于统计控制状态; H1: 1978~1989年我国人口育过程脱离控制状态,过程的分布发生偏移。 从以下两个方面来检验H0假设。 1)用最大游程长所必须的最大样本容量来进行检验 查“最大游程长k所必须的最大样本容量值表可知,当游程长等于5时,所必须的最大的样本容量为l0本文的样本容量12,且最大游程长度为4,故在 5%的水乎上不显著,不能拒绝H0假设。 2)用整个排列的游程总数来进行检验 从表7可知,R=4,E(R)=7,所以R-E(R)=4-7=3,根据上式 因为P{|R—E(R)|>2δR}=O 0445,而|R-E(R)|=3<2×1.65=3.20,所以在4.45%的显著水平上不显著,故也不能拒绝H0假设。 综上所述,可以认为1978~1989年我国人口生育过程处于控制状态。 同理可检验得: 1949~1977年我国人口生育过程脱离控制状态,过程分布发生了偏移。 以上检验证明: ①我国采取的一系列人口控制政策的措施是有效的②人口量度发展过程具有能控性 2.2、秩和检验的运用 在研究不用饲料对雌鼠体重增加是否有差异时有如下表: 饲 鼠 料 数 高 1 1 1 蛋 2 34 46 1 1 04 19 1 1 1 24 61 07 8 1 1 3 13 29 9 1 7 23 白 低 蛋 7 1 1 8 1 1 9 白 7 0 18 01 5 12 32 4 假设检验位H0: µ1=µ2 H: µ1≠µ2先将两组数据混合从小到大排列,并注明组别与秩如下表: 体 重 70 83 85 94 97 101 104 107 112 113 组 别 低 高 低 低 低 高 高 高 低 高 秩 1 2 3 4 5 6 7 8 9 10 体重 118 119 123 124 129 132 134 146 161 组 别 低 高 高 高 高 低 高 高 高秩 11 12 13 14 15 16 17 18 19 令Y为低蛋白组,n=7,X为高蛋白,Ri是低蛋白在混合样本中的秩: WY==50,根据式子可得WXY=WY- n(n+1)=22,当m=12,n=7时正态分布的临 2 界值q0.05为46,因为p=0.1003>0.05没有显著差异,所以可以认为高蛋白和低蛋白没有显著差异。 非参数统计方法的基本思想与参数统计思想平行,在运用的过程中可以锻炼对数学方法的思考和训练,在解决许多不知道背景的实际问题时非参数估计的运用很广,可以在对总体信息知之甚少的情况下,对总体的参数能比较正确反映,建立相应的数学分布,和统计模型。 参考文献 【1】国家统计局。 中国统计年鉴。 中国统计出版杜, 【2】王星.非参数统计.中国人民大学大学出版社.2007 【3】李隆章。 实用非参数统计方法。 中国财政经济出版杜. 【4】孙山泽.非参数统计讲义【M】.北京大学出版社.2000
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计 论文