数理统计讲义Word文档格式.doc
- 文档编号:1194155
- 上传时间:2023-04-30
- 格式:DOC
- 页数:53
- 大小:1.10MB
数理统计讲义Word文档格式.doc
《数理统计讲义Word文档格式.doc》由会员分享,可在线阅读,更多相关《数理统计讲义Word文档格式.doc(53页珍藏版)》请在冰点文库上搜索。
我们首先指出,样本具有所谓的二重性:
一方面,由于样本是从总体中随机抽取的,抽取前无法预知它们的数值,因此,样本是随机变量,用大写字母X1,X2,…,Xn表示;
另一方面,样本在抽取以后经观测就有确定的观测值,因此,样本又是一组数值。
此时用小写字母x1,x2,…,xn表示是恰当的。
简单起见,无论是样本还是其观测值,本书中样本一般均用x1,x2,…,xn表示,读者应能从上下文中加以区别。
例2.啤酒厂生产的瓶装啤酒规定净含量为640g,,由于随机性,事实上不可能使得所有的啤酒净含量均为640g,现从某厂生产的啤酒中随机抽取10瓶测定其净含量,得到如下结果:
641 635 640 637 642 638 645 643 639 640
这是一个容量为10的样本的观测值。
对应的总体为该厂生产的瓶装啤酒的净含量。
从总体中抽取样本时,为使样本具有代表性,抽样必须是随机抽样。
通常可以用随机数表来实现随机抽样。
还要求抽样必须是独立的,即每次的结果互不影响。
在概率论中,在有限总体(只有有限个个体的总体)中进行有放回抽样,是独立的随机抽样;
然而,若为不放回抽样,则是不独立的抽样。
但
当总体容量N很大但样本容量n较小时,不放回抽样可以近似地看做放回抽样,即可近似看做独立随机抽样。
下面,我们假定抽样方式总满足独立随机抽样的条件。
从总体中抽取样本可以有不同的抽法,为了能由样本对总体做出较可靠的推断,就希望样本能很好地代表总体。
这就需要对抽样方法提出一些要求,最常用的
“简单随机抽样”有如下两个要求:
(1)样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一样品xi与总体X有相同的分布。
(2)样本要有独立性,即要求样本中每一样品的取值不影响其他样品的取值,这意味着x1,x2,…,xn相互独立。
用简单随机抽样方法得到的样本称为简单随机样本,也简称样本。
除非特别指明,本书中的样本皆为简单随机样本。
于是,样本x1,x2,…,xn可以看成是相互独立的具有同一分布的随机变量,其共同分布即为总体分布。
设总体X具有分布函数F(x),x1,x2,…,xn为取自该总体的容量为n的样本,则样本联合分布函数为:
若总体具有密度函数f(x),则样本的联合密度函数为
若总体X为离散型随机变量,则样本的(联合)概率函数为
显然,通常说的样本分布是指多维随机变量(x1,x2,…,xn)的联合分布。
例3.为估计一物件的重量μ,用一架天平重复测量n次,得样本x1,x2,…,xn,由于是独立重复测量,x1,x2,…,xn是简单随机样本。
总体的分布即x1的分布(x1,x2,…,xn分布相同)。
由于称量误差是均值(期望)为零的正态变量,所以x1可认为服从正态分布N(μ,σ2)(X1等于物件重量μ)加上称量误差,即x1的概率密度为
这样,样本分布密度为
。
例4.设某种电灯泡的寿命X服从指数分布E(λ),其概率密度为:
则来自这一总体的简单随机样本x1,x2,…,xn的样本分布密度为
例5.考虑电话交换台一小时内的呼唤次数X。
求来自这一总体的简单随机样本x1,x2,…,xn的样本分布。
解 由概率论知识,X服从泊松分布P(λ),其概率函数
,
(其中x是非负整数{0,1,2,…,k,…}中的一个)。
从而,简单随机样本x1,x2,…,xn的样本分布为:
第二节统计量及其分布
要求学生理解数理统计的基本概念:
统计量,熟练掌握样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的计算公式,掌握次序统计量及其抽样分布。
能用R软件来计算这些常用统计量,能用R软件来产生分布的随机数以进行随机模拟。
教学重点:
样本均值、样本方差、样本原点矩、样本中心矩等常用统计量的求法;
次序统计量的抽样分布。
一、统计量与抽样分布
样本来自总体,样本的观测值中含有总体各方面的信息,但这些信息较为分散,有时显得杂乱无章。
为将这些分散在样本中有关总体的信息集中起来以反映总体的各种特征,需要对样本进行加工。
最常用的加工方法是构造样本的函数,不同的函数反映总体的不同特征。
定义1.设x1,x2,…,xn为取自某总体的样本,若样本函数T=T(x1,x2,…,xn)中不含有任何未知参数,则称T为统计量。
统计量的分布称为抽样分布。
按照这一定义,若x1,x2,…,xn为样本,则,都是统计量,而当μ,σ2未知时,,等均不是统计量。
二、样本均值及其抽样分布
定义2.设x1,x2,…,xn为取自某总体的样本,其算术平均值称为样本均值,一般用
表示,即。
例6.某单位收集到20名青年人某月的娱乐支出费用数据:
79 84 84 88 92 93 94 97 98 99
100 101 101 102 102108 110 113 118 125
则该月这20名青年的平均娱乐支出为
对于样本均值的抽样分布,我们有下面的定理。
定理1.设x1,x2,…,xn是来自某个总体X的样本,为样本均值。
(1)若总体分布为N(μ,σ2),则的精确分布为;
(2)若总体X分布未知(或不是正态分布),且E(X)=μ,D(X)=σ2,则当样本容量n较大时,的渐近分布为,这里的渐近分布是指n较大时的近似分布。
证明
(1)由于为独立正态变量线性组合,故仍服从正态分布。
另外,
故
(2)易知为独立、同分布的随机变量之和,且
。
由中心极限定理,
,
其中Φ(x)为标准正态分布。
这表明n较大时的渐近分布为。
三、样本方差与样本标准差
定义3.设x1,x2,…,xn为取自某总体的样本,则它关于样本均值
的平均偏差平方和
称为样本方差,其算术根称为样本标准差。
相对样本方差而言,样本标准差通常更有实际意义,因为它与样本均值具有相同的度量单位。
在上面定义中,n为样本容量,称为偏差平方和,
它有3个不同的表达式:
事实上,
,
偏差平方和的这3个表达式都可用来计算样本方差。
例7.在例6中,我们已经算得,其样本方差与样本标准差为
方法二
∴s=11.5731
通常用第二种方法计算s2方便许多。
下面的定理给出样本均值的数学期望和方差以及样本方差的数学期望,它不依赖于总体的分布形式。
这些结果在后面的讨论中是有用的。
定理2.设总体X具有二阶矩,即
E(x)=μ,D(X)=σ2<
+∞
x1,x2,…,xn为从该总体得到的样本,和s2分别是样本均值和样本方差,则
此定理表明,样本均值的均值与总体均值相同,而样本均值的方差是总体方差的。
证明 由于
(1)
(2)
且有:
,而
于是
两边各除以n-1,即得证。
值得读者注意的是:
本定理的结论与总体服从什么分布无关。
四、样本矩及其函数
样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。
定义4.设x1,x2,…,xn是样本,则统计量
称为样本k阶原点矩,特别地,样本一阶原点矩就是样本均值。
统计量
称为样本k阶中心矩。
常见的是k=2的场合,此时称为二阶样本中心矩。
本书中我们将其记为sn2,以区别样本方差S2。
五、极大顺序统计量和极小顺序统计量
定义5.设总体X具有分布函数F(x),分布密度f(x),x1,x2,…,xn
为其样本,我们分别称
X
(1)=min{x1,x2,…xn},x(n)=max{x1,x2,…xn}为极小顺序统计量和极大顺序统计量。
定理3.若x
(1),x(n)分别为极小、极大顺序统计量,则
(1)x
(1)的分布函数F1(x)=1-(1-F(x))n,x
(1)的分布密度f1(x)=n-(1-F(x))n-1f(x)
(2)x(n)的分布函数Fn(x)=[F(x)]n,x(n)的分布密度fn(x)=n[F(x)]n-1f(x)
证明先求出x
(1)及x(n)的分布函数F1(x)及Fn(x):
分别对F1(x),Fn(x)求导即得
六、正态总体的抽样分布
有很多统计推断是基于正态总体的假设的,以标准正态变量为基石而构造的三个著名统计量(其抽样分布分别为x2分布,t分布和F分布)在实践中有着广泛的应用。
这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有“明确的表达式”,它们被称为统计中的“三大抽样分布”。
1.x2分布(卡方分布)
定义6.设X1,X2,…,Xn独立同分布于标准正态分布N(0,1),
则x2=x12+…xn2的分布称为自由度为n的x2分布,记为x2~x2(n)。
x2(n)分布的密度函数见图1-4
当随机变量x2~x2(n)时,对给定的α(0<
α<
1),称满足p{x2>
xα2(n)}=α的xα2(n)}是自由度为n的开方分布的α分位数。
分位数xα2(n)}可以从附表4中查到。
例如n=10,α=0.05,那么从附表4中查得x2(10)=18.307
p(x)2>
x20.05(10)=p{x2>
18.307=0.05
注:
请读者注意x2~x2(n)时,n是自由度,不是容量。
2.F分布
定义7.设x1~x2(m),x2~x2(n)X1与X2独立,则称的分布是自由度
为m与n的F分布,记为F~F(m,n),其中m称为分子自由度,n称为分母自由度。
自由度为m与n的F分布的密度函数的图像是一个只取非负值的偏态分布(见图6-5)。
当随机变量F~F(m,n)时,对给定的α(0<
1),称满足P{F>
Fα}(m,n)=α的数Fα(m,n)是自由度为m与n的F分布的α分位数。
当F~F(m,n)时,有下面性质(不证)
这说明
对小的α,分位为Fα(m,n)可以从附表5中查到,而分位数F1-α(m,n)则可通过上式得到。
例8.若取m=10,则n=5,α=0.05,那么从附表5上(m=n1,n=n2)查得
F0.05(10,5)=4.74
利用(6.3.8)式可得到
3.t分布
定义8.设随机变量与X1与X2独立且X1~N(0,1),X2~X2(n),
则称的分布为自由度为n的t的分布,记为t~t(n).
t分布密度函数的图像是一个关于纵轴对称的分布(如下图),与标准正态分布的密度函数形态类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布的大一些。
t分布与N(0,1)的密度函数
当随机变量t~t(n)时,称满足P{t>
tα(n)}=α的tα(n)是自由度为n的t分布的α分位数,分位数tα(n)可以从附表3中查到,例如当n=10,α=0.05时,从附表3上查得
t0.05(10)=1.8125
由于t分布的密度函数关于0对称,故其分位数有如下关系:
t1-α(n)=-tα(n)
例如,
t0.95(10)=-t0.05(10)=-1.8125
当n很大时,(n≥30),t分布可以用N(0,1)近似
P(t>
-tα)=1-α,p(t>
t1-α)=1-α,∴t1-α=-tα
4.一些重要结论
来自一般正态总体的样本均值和样本方差S2的抽样分布是应用最广的抽样分布,下面我们加以介绍。
定理4.设X1,X2,…Xn是来自正态总体N(μ,σ2)的样本,
其样本均值和样本方差分别为:
则有
(1)与s2相互独立;
特别,若(不证)
推论:
设,σ21=σ22=σ2并记
则
(不证)
本章小结
本章的基本要求:
(一)知道总体、样本、简单样本和统计量的概念
(二)知道统计量和s2的下列性质:
E(s2)=σ2
(三)若x的分布函数为F(x),分布函数为f(x),则样本(x1,x2,…xn)的联合分布函数为F(x1)F(x2)…F(xn)样本(x1,x2,…xn)的联合分布密度为f(x1)f(x2)…f(xn),样本(x1,x2,…xn)的概率函数,p(x1,x2,…xn)=p(X=x1)p(X=x2)…p(X=xn)因而顺序统计量x
(1),…x(n)中
X
(1)的分布函数为1-(1-F(x))n
X(n)的分布函数为[F(x)]n
(四)掌握正态总体的抽样分布
若X~N(μ,σ2)则有
(3)
(4)若
=>
当时,。
(五)知道样本原点矩与样本中心矩的概念
第二章参数估计
从本章开始我们介绍统计推断,所谓统计推断就是由样本推断总体,统计推断包括参数估计和假设检验两部分,它们是统计推断最基本而且是互相有联系的两部分,本章介绍统计推断的第一部分参数估计。
参数通常指总体分布中的特征值和和各种分布中的参数,例如二点分布B(1,P)中的p,泊松分布P()中的,正态分布N(、)的、等,习惯用表示参数,通常参数是未知的。
参数估计的形式有两类,设x1,x2,…,xn是来自总体的样本。
我们用一个统计量的取值作为参数的估计值,则称为的点估计(量),就是参数的点估计,如果对参数的估计需要对估计作出可靠性判断,就需要对这一可靠性给出可靠性区间或置信区间,叫区间估计。
下面首先介绍点估计
第一节点估计
要求学生了解参数点估计的基本思想,理解参数点估计的基本概念,熟练运用替换原理、矩法估计和最大似然估计对参数进行估计。
矩法估计、最大似然估计.
运用矩法估计、最大似然估计对参数进行估计.
直接用来估计未知参数的统计量称为参数的点估计量,简称为点估计,人们可以运用各种方法构造出很多的估计,本节介绍两种最常用的点估计方法。
它们是:
矩法和极大似然法。
一、替换原理和矩法估计
用下面公式表示的方法叫矩法
例1.对某型号的20辆汽车记录每5L汽油的行驶里程(km),观测数据如下:
29.8 27.6 28.3 27.9 30.1 28.7 29.9 28.0 27.9 28.7
28.4 27.2 29.5 28.5 28.0 30.0 29.1 29.8 29.6 26.9
这是一个容量为20的样本观测值,对应总体是该型号汽车每5L汽油的行驶里程,其分布形式尚不清楚,可用矩法估计其均值,方差,本例中经计算有
=28.695,=0.9185
由此给出总体均值,方差的估计分别为即
矩法估计的统计思想(替换原理)十分简单明确,众人都能接受,使用场合甚广。
例2.设总体为指数分布,其密度函数为
x1,…,xn是样本,由于,亦即,故的矩法估计为
例3.设x1,…,xn是来自服从区间(0,)上的均匀分布的样本,>0为未知参数。
求的矩估计。
解:
易知总体X的均值为
由矩法的矩估计为
比如,若样本值为0.1,0.7,0.2,1,1.9,1.3,1.8,则的估计值
=2×
(0.1+0.7+0.2+1+1.9+1.3+1.8)=2
例4.在一批产品取样n件,发现其中有m件次品,试用此样本求该批产品的次品率p的矩估计。
因为
∴
例如抽样总数n=100,其中次品m=5.
例5.电话总机在一分钟间隔内接到呼唤次数X~P()。
观察一分种接到呼唤次数共观察40次,结果如下
接到呼唤次数
1
2
3
4
5
观察次数
10
12
8
求未知参数的矩估计
(1)∵X~P()
∴EX=
由矩法
∴
(2)计算(0×
5+1×
10+2×
12+3×
8+4×
3+5×
2)=2
∴=2
二、极大似然估计
为了叙述极大似然原理的直观想法,先看例6
例6.设有外表完全相同的两个箱子,甲箱中有99个白球和1个黑球,乙箱中有99个黑球和1个白球,现随机地抽取一箱,并从中随机抽取一球,结果取得白球,问这球是从哪一个箱子中取出的?
不管是哪一个箱子,从箱子中任取一球都有两个可能的结果:
A表示取出白球,B表示取出黑球,如果我们取出的是甲箱,则A发生的概率为0.99,而如果取出的是乙箱,则A发生的概率为0.01,现在一次试验中结果A发生了,人们的第一印象就是:
“此白球(A)最像从甲箱取出的”,或者是说,应该认为试验条件对事件A出现有利,从而可以推断这球是从甲箱中取出的,这个推断很符合人们的经验事实,这里“最像”就是“极大似然”之意。
本例中假设的数据很极端,一般地,我们可以这样设想,在两个箱子中各有100个球,甲箱中白球的比例是P1,乙箱中白球的比例是P2,已知P1>P2,现随机地抽取一个箱子并从中抽取一球,假定取到的是白球,如果我们要在两个箱子中进行选择,由于甲箱中白球的比例高于乙箱,根据极大似然原理,我们应该推断该球来自甲箱。
下面分别给出离散型随机变量和连续型随机变量的极大似然估计求未知参数的估计的步骤
(一)离散型随机变量
第一步,从总体X取出样本x1,x2,…,xn
第二步,构造似然函数
L(x1,x2,…,xn,)=P(X=x1)P(X=x2)…P(X=xn)
第三步,计算lnL(x1,x2,…,xn,)并化简
第四步,当=时lnL(x1,x2,…,xn,)取最大值则取=
常用方法是微积分求最值的方法。
(二)连续型随机变量
若X~f(x,)
第一步 从总体X取出样本x1,x2,…,xn
第二步 构造似然函数
L(x1,x2,…,xn,)=f(x1,)f(x2,)…f(xn,)
第三步 计算lnL(x1,x2,…,xn,)并化简
第四步 当=时lnL(x1,x2,…,xn,)取最大值则取=
常用方法是微积分求最值的方法
例7.设总体X~B(1,P)即
设P(A)=,从总体X中抽样x1,x2,…,xn,问最大似然法求
当X~B(1,P)时,应有
∴P(X=1)=P,P(X=0)=1-P
第一步 构造似然函数
L(x1,x2,…,xn,P)=P(X=x1)P(X=x2)…P(X=xn)
=
第二步 计算lnL(x1,x2,…,xn,P)并化简
=(x1+…+xn)lnp+(n-(x1+…+xn)ln(1-p)
第三步 求
∴驻点为
化简为(x1+…+xn)(1-p)=p[n-(x1+…+xn)]
∴(x1+…+xn)=np
∴驻点
因为只有一个驻点
∴是最大点
∴取
例抽样n次A发生m次,则在x1,x2…xn中有m个1,其余为0,
例8.
(1)设总体X服从泊松分布p(),求的极大似然估计;
(2)设总体X服从指数分布E(),求的极大似然估计
∴p(X=k)=从总体X中取样本x1,x2…xn。
解得的极大似然估计
易知的矩估计亦为
(2)∵X~E()
第一步,从中取样本值x1,x2…xn,应有x1>0,x2>0…xn>0
∴似然函数L(x1,x2…xn)=f(x1)f(x2)…f(xn)=
第二步 计算
∴驻点是最大点
在例2中用矩法估计也是同样结果。
例9.设,即
从中取样x1,x2…xn,试用最大似然法求
因为样本x1,x2…xn已经取出。
所以应有0≤x1≤,0≤x2≤,…0≤xn≤
所以的取值范围为
∵>0,很明显,似然函数是的单调减函数,因此当最小时,似然函数最大,由条件
知的最小值为
所以时最大。
取
这一结果与用矩法估计(例7-3)的结果不同。
例10.若,从中抽样x1,x2…xn,试用最大似然估计法求:
X的似然函数
将分别关于两个分量求偏导并令其为0即得到似然方程组
,
(1)
,
(2)
解此方程组,由
(1)可得驻点,的极大似然估计为,
将之代入
(2)给出的极大似然估计
第二节点估计的评价标准
要求学生了解相合性、无偏性、有效性和均方误差的基本思想,理解
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数理统计 讲义