研-统计3抽样误差t分布.pptx
- 文档编号:18687008
- 上传时间:2023-09-09
- 格式:PPTX
- 页数:59
- 大小:2.78MB
研-统计3抽样误差t分布.pptx
《研-统计3抽样误差t分布.pptx》由会员分享,可在线阅读,更多相关《研-统计3抽样误差t分布.pptx(59页珍藏版)》请在冰点文库上搜索。
概念:
频数分布以均数为中心,左右两侧基概念:
频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。
减少的对称分布。
是一种连续型分布。
又称高斯分布。
是一种连续型分布。
又称高斯分布。
高斯高斯(JohannCarlFriedrichGauss,生于,生于1777年年4月月30日日于不伦瑞克,卒于于不伦瑞克,卒于1855年年2月月23日日于哥廷根,德国著名数学家、天文学家于哥廷根,德国著名数学家、天文学家、大地测量学家、物理学家。
被认为是最重、大地测量学家、物理学家。
被认为是最重要的数学家,并有数学王子的美誉。
要的数学家,并有数学王子的美誉。
正分布态(normaldistribution)正态分布用正态分布用N(,)表示,其位置与均数有关,表示,其位置与均数有关,形状与标准差有关。
形状与标准差有关。
医学现象许多呈正态分布,或近似正态分布:
如医学现象许多呈正态分布,或近似正态分布:
如正常人的生理,生化指标变量,等正常人的生理,生化指标变量,等2s从直方图到正态曲线的过渡对称分布正(右)偏分布负(左)偏分布几种常见的频数分布正态分布之所以重要正态分布之所以重要,三个主要原因三个主要原因:
1.正态分布在分析上较易处理。
正态分布在分析上较易处理。
2.正态分布之概率密度函数(正态分布之概率密度函数(p.d.f.,probabilitydensityfunction)的图形为钟形曲线)的图形为钟形曲线(bell-shapedcurve),对称对称,很适合当做不少很适合当做不少事件之机率模式。
事件之机率模式。
3.正态分布可当做不少大样本的近似分布。
正态分布可当做不少大样本的近似分布。
正态分布的密度函数:
式中正态分布的密度函数:
式中为均数;为均数;为为标准差;标准差;为圆周率;为圆周率;为自然对数的底,为自然对数的底,即即2.71828。
以上均为常数,仅。
以上均为常数,仅x为变量。
为变量。
x-+2()1()21()2xfxemssp-=
(1)标准正态分布标准正态分布:
为了应用方便,常将式进行变量变换,即:
为了应用方便,常将式进行变量变换,即:
u变换变换.所得到的新变量所得到的新变量u的分布即为标准的分布即为标准正态分布。
正态分布。
u的含义:
变量到均数间的距离相当于标准的含义:
变量到均数间的距离相当于标准差的倍数。
差的倍数。
xuxms-=-+标准正态分布的概率密度函数:
(2)u-+2()21()2uuejp-=u变换后,变换后,=0,=1,使原来的正态分布,使原来的正态分布变换为标准正态分布(变换为标准正态分布(standardnormaldistribution)亦称)亦称u分布。
分布。
标准正态分布标准正态分布N(0,1).正态分布的特征和分布规律:
正态分布的特征和分布规律:
(1)曲线在)曲线在x轴的上方,与轴的上方,与x轴不相交,当轴不相交,当x=时,曲线位于最高点。
时,曲线位于最高点。
f(u=0)=0.3989
(2)曲线关于直线)曲线关于直线x=左右对称。
左右对称。
(3)正态分布有两个参数)正态分布有两个参数:
均数均数,标准差标准差;标标准正态的参数分别为准正态的参数分别为:
0,1(4)正态分布的面积分布有一定规律。
)正态分布的面积分布有一定规律。
正态曲线下面积的分布规律正态曲线下面积的分布规律正态曲线下,正态曲线下,横轴上一定区间的面积横轴上一定区间的面积,等于该区等于该区间的频数发生的概率(即所有随机事件发生的概间的频数发生的概率(即所有随机事件发生的概率)率)。
面积可用积分求得。
面积可用积分求得。
F(x)为正态变量为正态变量X的累积分布函数,反映正态的累积分布函数,反映正态曲线下,曲线下,自自-到到x的面积,即左侧累积面积的面积,即左侧累积面积。
(4)(3)2()21()2uuuedufp-=21()21()2xxFxedxmssp-=统计学家已经按编成了附表,标准正统计学家已经按编成了附表,标准正态分布曲线下的面积。
应用时注意:
态分布曲线下的面积。
应用时注意:
(1)当总体)当总体,已知时,先计算已知时,先计算u值,再值,再用用u值查表,得出所求区间面积占总面积的比例。
值查表,得出所求区间面积占总面积的比例。
如果未知,常分别用样本均数和样本标准差来估如果未知,常分别用样本均数和样本标准差来估计。
计。
(2)曲线下对称于)曲线下对称于0的区间,面积相等。
如:
的区间,面积相等。
如:
区间(区间(-,-2.58)与区间()与区间(2.58,)的面积相等。
)的面积相等。
(3)曲线下横轴上的总面积为)曲线下横轴上的总面积为100%或为或为1。
根据后两个特征,可计算右侧累积面积。
根据后两个特征,可计算右侧累积面积。
(4)正态分布正态分布标准正态分布标准正态分布面积面积(或概率或概率)-1_+1-1_+168.27%1.96_+1.96-1.96_+1.9695.00%2.58_+2.58-2.58_+2.5899.00%正态分布和标准正态分布曲线下面积分布规律(-1,1),68.27%(-1.96,1.96),95%(-2.58,2.58),99%双侧概率双侧概率单侧概率单侧概率正态曲线下面积的分布规律的应用:
正态曲线下面积的分布规律的应用:
一、确定医学参考值范围一、确定医学参考值范围意义意义:
是正常人指标测定值的波动范围,可用于是正常人指标测定值的波动范围,可用于划分正常,或异常。
划分正常,或异常。
步骤:
步骤:
1、抽样、抽样2、控制测量误差、控制测量误差3、取单侧、取单侧或双侧或双侧4、选定合适的百分界限、选定合适的百分界限5、资料正、资料正态性检验态性检验6、进行参考值估计、进行参考值估计常用方法:
常用方法:
正态分布法,对数正态分布法,百分位数法正态分布法,对数正态分布法,百分位数法95%正常值范围的估计正常值范围的估计适用对适用对象象双侧界限双侧界限单侧上界单侧上界单侧下界单侧下界正态分正态分布法布法正态、正态、近似正近似正态态对数正对数正态法态法对数正对数正态、近态、近似正态似正态百分位百分位数法数法偏态偏态1.96XS1.645XS+1.645XS-1lglglg(1.96)xxXS-1lglglg(1.645)xxXS-+1lglglg(1.645)xxXS-2.597.5PP95P5P正常值范围的上下限正常值范围的上下限单侧下限单侧下限单侧上限单侧上限双侧界限双侧界限例:
用正态分布法求血糖值例:
用正态分布法求血糖值95%的参考值范围的参考值范围。
解:
解:
1、求样本的均数4.653、标准差0.401。
2、按照、按照双侧双侧95%范围,确定参考值范围为:
范围,确定参考值范围为:
3、将样本的均数、标准差数值代入计算,得出、将样本的均数、标准差数值代入计算,得出范围。
范围。
1.96XS1.964.6531.960.401(3.875.44)XS贝=对数正态分布对数正态分布(lognormaldistribution):
很多医学资料呈偏态分布,经过对数变换很多医学资料呈偏态分布,经过对数变换(用原始数据的对数值(用原始数据的对数值lgx代替代替x)后,服从后,服从正态分布,就说正态分布,就说x服从对数正态分布。
服从对数正态分布。
如:
环境中若干有害物质的浓度,食品中有如:
环境中若干有害物质的浓度,食品中有些农药的残留量,某些临床检验结果,某些些农药的残留量,某些临床检验结果,某些疾病的潜伏期,医院病人的住院天数,都呈疾病的潜伏期,医院病人的住院天数,都呈偏态分布。
但对数转换后,为正态分布。
按偏态分布。
但对数转换后,为正态分布。
按照正态分布规律处理。
照正态分布规律处理。
例题例题某市某年调查某市某年调查200例正常人血铅含量(例正常人血铅含量(ug/100g,双硫腙分光比色法),试估计血铅值的双硫腙分光比色法),试估计血铅值的95%上上限。
限。
资料服从对数正态分布,求血铅对数值的均数,资料服从对数正态分布,求血铅对数值的均数,标准差。
标准差。
1lglglg(1.645)xxXS-+11lg(1.15451.6450.2679)lg(1.5952)39(/100)ugg-+=二、确定概率分布:
二、确定概率分布:
例:
某市例:
某市2000年年110名名7岁男童身高,已知均岁男童身高,已知均数数=119.95厘米,标准差厘米,标准差S=4.72厘米,估计:
该厘米,估计:
该地地7岁男童身高在岁男童身高在110厘米以下者占该地厘米以下者占该地7岁男岁男童总数的百分数。
童总数的百分数。
按:
求按:
求u值,值,查表:
找到查表:
找到-2.1,上方找到,上方找到0.01,二者相交处,二者相交处为为0.0174,概率为,概率为0.0174=1.74%,即该地,即该地7岁岁男童身高在男童身高在110厘米以下者,估计占厘米以下者,估计占1.74%,不到不到2%。
X110119.952.114.72Xums-=-三、质量控制:
三、质量控制:
实验中,常以作为上下警实验中,常以作为上下警戒值,戒值,以作为上下控以作为上下控制值。
制值。
正态分布是很多统计方法的理论基础正态分布是很多统计方法的理论基础2XS3XS均数的抽样误差,均数的抽样误差,t分布,参数估计分布,参数估计Samplingerrorofmean,t-distribution,parametersestimation一、均数的抽样误差和标准误一、均数的抽样误差和标准误均数的抽样误差均数的抽样误差samplingerrorofmean由于总体中存在个体变异,抽样研由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,(或率),样本均数之间也互不相等,这种由这种由抽样引起的差异称为均数的抽样误差的体现抽样引起的差异称为均数的抽样误差的体现。
即:
即:
iXmijXX如何估计抽样误差如何估计抽样误差?
标准误标准误standarderror,SE以样本均数为例:
以样本均数为例:
SE越大,均数的抽样误差越大,样本均数与越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。
总体均数间的差异越大。
XSSn=Xnss=当样本例数一定时,样本均数的标准误与原当样本例数一定时,样本均数的标准误与原始数据的标准差成正比;当标准差一定时,始数据的标准差成正比;当标准差一定时,标准误与样本含量标准误与样本含量n的平方根成反比。
增的平方根成反比。
增加样本含量可以减小抽样误差。
加样本含量可以减小抽样误差。
与标准差的区别:
与标准差的区别:
标准差:
表示一般个体值的离散程度;标准差:
表示一般个体值的离散程度;标准误:
特别说明统计量的离散程度。
标准误:
特别说明统计量的离散程度。
标准误的应用标准误的应用1、用来衡量抽样误差的大小、用来衡量抽样误差的大小:
标准误越小,样本均数与总体均数越接近标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;,样本均数的可信度越高;2、结合标准正态分布与、结合标准正态分布与t分布曲线下的面积分布曲线下的面积规律,估计总体均数的置信区间。
规律,估计总体均数的置信区间。
3、用于假设检验。
、用于假设检验。
假定假定2003年汕头市年汕头市15岁女学生的身高服从岁女学生的身高服从均数均数155.4cm、标准差、标准差5.3cm的正态分布。
的正态分布。
用计算机做抽样模拟试验,从用计算机做抽样模拟试验,从N(155.4,5.32)的总体中,每次抽出的总体中,每次抽出10个数字(样本含量为个数字(样本含量为10),组成一个样本,求出样本均数),组成一个样本,求出样本均数、样本标准差、样本标准差S。
再求得此。
再求得此100个样本均个样本均数的均数、样本均数的标准差。
数的均数、样本均数的标准差。
抽样分布抽样分布X样本均数的标准差是什么?
样本均数的标准差是什么?
.标准误标准误100个样本均数构成一个新的分布,也是个样本均数构成一个新的分布,也是正态分正态分布。
布。
即使原分布为偏态分布,当样本含量足够大时,即使原分布为偏态分布,当样本含量足够大时,新分布也新分布也近似正态分布近似正态分布)。
新分布的集中趋势用)。
新分布的集中趋势用均数的均数均数的均数来表示,离散趋势用来表示,离散趋势用标准误标准误表示表示N(,)。
各样本均数的均数等于总体均数各样本均数的均数等于总体均数。
m2Xs正态总体中抽样正态总体中抽样(样本量(样本量5)正态总体中抽样正态总体中抽样(样本量(样本量10)正态总体中抽样正态总体中抽样(样本量(样本量30)抽样时样本量抽样时样本量大小决定了样大小决定了样本均数分布的本均数分布的形状,当样本形状,当样本量足够大时,量足够大时,均数分布趋向均数分布趋向正态分布。
正态分布。
050100150200250300350400450均数频数050100150200250300350400450均数频数050100150200250300350400450500均数频数二、二、t分布(分布(t-distribution)还记得吗?
还记得吗?
xums-=u转换将正态分布转换为标准正态转换将正态分布转换为标准正态,N(0,1)。
同理:
将样本均数的分布也可以转换为标准正态同理:
将样本均数的分布也可以转换为标准正态分布。
分布。
即:
即:
2,()(0,1)XNNmsXXums-=实际工作中,总体标准差往往未知,常用实际工作中,总体标准差往往未知,常用S代替代替计计算标准误,因此:
为了和算标准误,因此:
为了和u分布区别,就变为:
分布区别,就变为:
/XXXtSSnmm-=均数的分布也是这样均数的分布也是这样如果我们采用另一个正态变量如果我们采用另一个正态变量:
于是,均数的分布变成了标准正态分布于是,均数的分布变成了标准正态分布:
XXums-=2,()(0,1)XNNmsxums-=但是,条件发生了变化我们通常用代替我们通常用代替然而,然而,随着样本量的变化而变化,所以,我随着样本量的变化而变化,所以,我们称之为们称之为t-分布,虽然它是正态分布,但只有分布,虽然它是正态分布,但只有当样本量(自由度)无穷大的时候,它才是标当样本量(自由度)无穷大的时候,它才是标准正态分布,此时,准正态分布,此时,u=t/XXXtSSnmm-=XXums-=XsXSXStt分布曲线分布曲线tt分布是一簇分布是一簇对称于对称于0的单峰分布曲线。
的单峰分布曲线。
自由度越小(相当于标准差大),曲线的中间越自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自由度增大,低,两边越高;随自由度增大,tt分布曲线逐分布曲线逐渐逼近于标准正态分布曲线。
渐逼近于标准正态分布曲线。
当自由度无穷大时,当自由度无穷大时,tt分布就是标准正态分布分布就是标准正态分布曲线。
曲线。
每一条每一条tt分布曲线,都对应于相应的自由度。
分布曲线,都对应于相应的自由度。
tt分布模拟试验分布模拟试验tt分布曲线下的面积规律分布曲线下的面积规律与标准正态曲线下的面积规律相似:
与标准正态曲线下的面积规律相似:
在某一个自由度下,两侧外部总面积为在某一个自由度下,两侧外部总面积为5%5%的的界限的界限的tt值称为值称为t0.05/2(),t0.05/2(),把两侧外部总把两侧外部总面积为面积为1%1%的界限的的界限的tt值称为值称为t0.01/2()t0.01/2()。
因此,中部占因此,中部占95%95%面积的面积的tt值范围:
值范围:
t0.05/2()-t0.05/2(),t0.05/2()-t0.05/2(),中部占中部占99%99%面积的面积的tt值范围:
值范围:
-t0.01/2()-t0.01/2()-t0.01/2()-t0.01/2()。
当自由度确定时,占一定面积的当自由度确定时,占一定面积的t界限值界限值,可以查表得出。
,可以查表得出。
例如:
查当自由度例如:
查当自由度=20,两侧概率之和为,两侧概率之和为0.05时,对应的时,对应的t值:
值:
t0.05/2(20)=2.086,单侧概率为单侧概率为0.05时,对应的时,对应的t值:
值:
t0.05(20)=1.725,一般,一般,t0.05/2(v)1.96,t0.01/2(v)2.58自由度越小,曲线越低平,自由度越小,曲线越低平,t比比1.96,2.58大的多;自由度变大,大的多;自由度变大,t接近于接近于1.96,2.58;自由度无穷大,;自由度无穷大,t=1.96,2.58使用使用t值表注意:
值表注意:
同一自由度下同一自由度下,P越小,越小,t值越大;值越大;P值相同时值相同时,自由度越大,自由度越大,t越小;当自由度无穷大时,越小;当自由度无穷大时,t值与值与u值相等。
这也是值相等。
这也是u分布与分布与t分布的区别。
分布的区别。
tt分布的主要应用:
分布的主要应用:
总体均数置信区间估计;总体均数置信区间估计;tt检验;检验;三、总体均数置信区间的估计三、总体均数置信区间的估计统计推断:
参数估计,假设检验统计推断:
参数估计,假设检验参数估计:
参数估计:
点估计(点估计(pointestimation):
用样本统计量作为用样本统计量作为对总体参数的估计值对总体参数的估计值()。
比如均数的估计。
比如均数的估计。
区间估计区间估计(intervalestimation):
根据选定的置:
根据选定的置信度估计总体均数所在的区间(信度估计总体均数所在的区间(a50)足够大足够大也可参考也可参考u分布进行分布进行95%置信区间:
置信区间:
99%置信区间:
置信区间:
2.58,2.58XXXSXS-+1.96,1.96XXXSXS-+3、总体标准差未知,样本例数较小、总体标准差未知,样本例数较小按按t分布原理,依据自由度,查出某个概率相分布原理,依据自由度,查出某个概率相应的应的t界值,界值,中部占中部占95%95%面积的面积的tt值范围:
值范围:
-t0.05/2()_t0.05/2(),-t0.05/2()_t0.05/2(),占占99%99%面积的面积的tt值范围:
值范围:
-t0.01/2()_t0.01/2()-t0.01/2()_t0.01/2()进行估计。
进行估计。
因为:
因为:
95%95%的样本满足:
的样本满足:
95%95%置信区间:
置信区间:
99%99%置信区间:
置信区间:
XXtSm-=0.05/2,0.05/2,XXXtSXtSnn-+0.01/2,0.01/2,XXXtSXtSnn-+0.05/2|,vXXtSm-95%置信区间的意义:
置信区间的意义:
理论上,用一次抽样所得的样本均数估计总体理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为均数,犯错误的概率为5%.或进行或进行100次抽样,可算得次抽样,可算得100个置信区间,个置信区间,平均有平均有95个置信区间包括客观存在的总体均个置信区间包括客观存在的总体均数,只有数,只有5个置信区间未包括总体均数。
个置信区间未包括总体均数。
估计置信区间的注意事项:
估计置信区间的注意事项:
(1)区间是以上、下可信限为界的一个范围)区间是以上、下可信限为界的一个范围。
通常用表示置信通常用表示置信限,用限,用表示置信区间表示置信区间/2,*/2,*(,)-+XXXtSXtSanan/2,*XXtSan
(2)置信区间与正常值范围:
)置信区间与正常值范围:
95%正常值范围一般是指同质总体内包括正常值范围一般是指同质总体内包括95%个体值的估计范围,若总体为正态分布,常用个体值的估计范围,若总体为正态分布,常用:
计算;计算;95%置信区间是指按照置信区间是指按照95%置信度估计的总体置信度估计的总体参数的可能范围,常按照下式计算。
参数的可能范围,常按照下式计算。
前者用标准差,后者用标准误。
前者用标准差,后者用标准误。
1.96XS0.05/2,0.05/2,XXXtSXtSnn-+
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 抽样误差 分布