统计学概率与抽样分布.pptx
- 文档编号:18858186
- 上传时间:2024-02-01
- 格式:PPTX
- 页数:88
- 大小:522.92KB
统计学概率与抽样分布.pptx
《统计学概率与抽样分布.pptx》由会员分享,可在线阅读,更多相关《统计学概率与抽样分布.pptx(88页珍藏版)》请在冰点文库上搜索。
第5章概率与抽样分布ProbabilityandSamplingDistributions想过下面的问题吗?
l购买一张彩票中奖的可能性有多大?
购买一张彩票中奖的可能性有多大?
l购买一只股票明天上涨的可能性有多购买一只股票明天上涨的可能性有多大?
大?
l你投资一个餐馆盈利的可能性有多大你投资一个餐馆盈利的可能性有多大?
l一项工程按期完成的可能性有多大?
一项工程按期完成的可能性有多大?
l明天降水的可能性有多大?
明天降水的可能性有多大?
第5章概率与概率分布5.1随机事件及其概率5.2概率的性质与运算法则5.3离散型随机变量及其分布5.4连续型随机变量及其分布学习目标1.了解随机事件、随机试验、含义、几种概率2.掌握随机变量的定义、分布特征及数学期望3.掌握样本均值与成数的抽样分布5.1随机事件及其概率随机事件及其概率壹.壹.事件及其运算事件及其运算贰.贰.事件的概率事件的概率叁.叁.概率计算的几个例子概率计算的几个例子事件及其运算事件的概念1.1.事件事件(event)(event):
随机试验的每一个可能结果(任何样本点集合)例如:
掷一枚骰子出现的点数为32.2.随机事件随机事件(randomevent)(randomevent):
每次试验可能出现也可能不出现的事件例如:
掷一枚骰子可能出现的点数3.3.必然事件必然事件(certainevent)(certainevent):
每次试验一定出现的事件,用表示例如:
掷一枚骰子出现的点数小于74.4.不可能事件不可能事件(impossibleevent)(impossibleevent):
每次试验一定不出现的事件,用表示例如:
掷一枚骰子出现的点数大于6例解随机试验:
抛掷两颗骰子,观察出现的点数试验的样本点和基本事件(1,1),(1,2),(1,3),(1,4),(1,5),(1,6),.,(6,1),(6,2),.,(6,6随机事件A=“点数之和等于3”=(1,2),(2,1)B=“点数之和大于11”=6,6C=“点数之和不小于2”=D=“点数之和大于12”=事件的关系和运算(事件的包含)ABBA若事件A发生必然导致事件B发生,则称事件B包含事件A,或事件A包含于事件B,记作或AB或BA事件的关系和运算(事件的并或和)事件A和事件B中至少有一个发生的事件称为事件A与事件B的并。
它是由属于事件A或事件B的所有的样本点组成的集合,记为AB或A+BBAAB事件的关系和运算(事件的交或积)ABAB事件A与事件B同时发生的事件称为事件A与事件B的交,它是由属于事件A也属于事件B的所有公共样本点所组成的集合,记为BA或AB事件的关系和运算(互斥事件)ABA与与B互不相容互不相容事件A与事件B中,若有一个发生,另一个必定不发生,则称事件A与事件B是互斥的,否则称两个事件是相容的。
显然,事件A与事件B互斥的充分必要条件是事件A与事件B没有公共的样本点事件的关系和运算(事件的逆)AA一个事件B与事件A互斥,且它与事件A的并是整个样本空间,则称事件B是事件A的逆事件。
它是由样本空间中所有不属于事件A的样本点所组成的集合,记为A事件的关系和运算(事件的差)A-BAB事件A发生但事件B不发生的事件称为事件A与事件B的差,它是由属于事件A而不属于事件B的那些样本点构成的集合,记为A-B什么是概率?
(probability)1.1.概率是对事件发生的可能性大小的度量概率是对事件发生的可能性大小的度量你购买一只股票明天上涨的可能性有你购买一只股票明天上涨的可能性有多大多大明天降水的概率是明天降水的概率是80%80%。
这里的。
这里的80%80%就是对降水这一事件发生的可能性大就是对降水这一事件发生的可能性大小的一种数值度量小的一种数值度量2.2.一个介于一个介于00和和11之间的一个值之间的一个值3.3.事件事件AA的概率记为的概率记为PP(AA)事件的实际发生率称为频率。
设在相同事件的实际发生率称为频率。
设在相同条件下,独立重复进行条件下,独立重复进行nn次试验,事件次试验,事件AA出出现现ff次,则事件次,则事件AA出现的频率为出现的频率为ff/nn。
概率:
随机事件发生的可能性大小,用概率:
随机事件发生的可能性大小,用大写的大写的PP表示;取值表示;取值00,11。
一、频率与概率一、频率与概率frequencyandfrequencyandprobabilityprobability概率1.古典概率是指在每次试验中事件等可能出现的条件下,于试验前计算的比率。
设事件A是样本空间中的一个随机事件,若样本空间中的基本事件数为n,事件A包含m个基本事件,则事件A的概率为:
P(A)=m/n【例】掷一枚的硬币,得到正面的概率为多少?
2.2.试验概率是指在确定的条件下,事试验概率是指在确定的条件下,事件件AA在大量的在大量的nn次试验中出现次试验中出现mm次,则事次,则事件件AA的频率的频率m/nm/n可作为事件可作为事件AA的概率的概率pp(AA)的近似比率。
这种概率是根据统计)的近似比率。
这种概率是根据统计试验后的大量数据整理所得,故称试验概试验后的大量数据整理所得,故称试验概率,也称后验概率和统计概率。
记为:
率,也称后验概率和统计概率。
记为:
nmAp)(nfPAPAnlim)(3.主观概率是指人们凭个人经验对某一事件发生的可能性大小作出的估计。
例如,天空看上去阴沉沉的,估计下雨的可能性有多大;股价指数在未来一周内上升的可能性有多大;一种新产品在未来市场上畅销的可能性有多大等。
1.样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动2.样本含量样本含量n越大,波动幅度越小,频率越接近概率。
越大,波动幅度越小,频率越接近概率。
频率与概率的关系:
频率与概率的关系:
表在相同条件下盲蝽象在某棉田危害程度的调查结果一、频率与概率一、频率与概率frequencyandfrequencyandprobabilityprobability一、频率与概率一、频率与概率frequencyandfrequencyandprobabilityprobability小概率原理小概率原理若事件若事件A发生的概率较小,如小于发生的概率较小,如小于0.05或或0.01,则认为事件,则认为事件A在一次试验中不太可能发生,在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率这称为小概率事件实际不可能性原理,简称小概率原理。
这里的原理。
这里的0.05或或0.01称为小概率标准,农业试称为小概率标准,农业试验研究中通常使用这两个小概率标准。
验研究中通常使用这两个小概率标准。
二、随机变量二、随机变量事先不知道会出现什么结果事先不知道会出现什么结果投掷两枚硬币出现正面的数量投掷两枚硬币出现正面的数量一座写字楼,每平方米的出租价格一座写字楼,每平方米的出租价格一个消费者对某一特定品牌饮料的偏好一个消费者对某一特定品牌饮料的偏好一般一般用用X,Y,Z来表示来表示根据取值情况的不同分为离散型随机变根据取值情况的不同分为离散型随机变量和连续型随机变量量和连续型随机变量离散型和连续型随机变量离散型和连续型随机变量随机变量的可能取值是离散的数字,如计数型或分类随机变量的可能取值是离散的数字,如计数型或分类型等,称为离散型随机变量型等,称为离散型随机变量(discreterandom(discreterandomvariable)variable)。
0,1,90,1,9。
2020次实验中成功的次数,二项式分布。
次实验中成功的次数,二项式分布。
随机变量的可能取值是某一实数的区间,如“大于随机变量的可能取值是某一实数的区间,如“大于0”0”或“或“-22-22之间”等,称为连续型随机变量之间”等,称为连续型随机变量(continuousrandomvariable)(continuousrandomvariable)。
正态随机变量正态随机变量三、随机变量三、随机变量三、离散型随机变量(discreterandomvariables)1.随机变量X取有限个值或所有取值都可以逐个列举出来x1,x2,2.以确定的概率取这些不同的值3.离散型随机变量的一些例子离散型数学期望和方差(例题分析)【例】一家电脑配件供应商声称,他所提供的配【例】一家电脑配件供应商声称,他所提供的配件件100个中拥有次品的个数及概率如下表个中拥有次品的个数及概率如下表每每100100个配件中的次品数及概率分布个配件中的次品数及概率分布求该供应商次品数的数学期望和标准差求该供应商次品数的数学期望和标准差43.005.0308.0212.0175.00iiipx8397.07051.0)(22iiipx三、离散型随机变量的概率分布三、离散型随机变量的概率分布列出离散型随机变量列出离散型随机变量XX的所有可能取值的所有可能取值列出随机变量取这些值的概率列出随机变量取这些值的概率通常用下面的表格来表示通常用下面的表格来表示P(X=xi)=piP(X=xi)=pi称为离散型随机变量的概率函数称为离散型随机变量的概率函数101iniipp=连续型随机变量(continuousrandomvariables)1.可以取一个或多个区间中任何值2.所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点3.连续型随机变量的一些例子连续型随机变量的期望和方差1.连续型随机变量的期望值.2.方差xxxfXEd)()(2d)()()(xxfXExXD四、连续型随机变量的概率密度四、连续型随机变量的概率密度若观察资料数量够大,则直方图若观察资料数量够大,则直方图(组数组数适当增加适当增加)的整体形态可用一近似的平的整体形态可用一近似的平滑曲线显示。
滑曲线显示。
直方图中纵轴改为次数比例,则该平滑直方图中纵轴改为次数比例,则该平滑曲线称为密度曲线曲线称为密度曲线(densitycurve)(densitycurve)。
概率密度曲线00.020.040.060.080.10.120.14234567891011密度曲线的性质密度曲线的性质曲线都在水平线上曲线都在水平线上(密度函数密度函数=0)=0)。
曲线下所涵盖的全部面积正好为曲线下所涵盖的全部面积正好为1(1(所有可所有可能性为能性为1)1)。
曲线下任何范围所涵盖的面积,为观察值曲线下任何范围所涵盖的面积,为观察值落在该范围的比例落在该范围的比例(概率概率)。
密度曲线可视为是观察变量的理论分布图密度曲线可视为是观察变量的理论分布图形。
形。
四、连续型随机变量的概率密度四、连续型随机变量的概率密度随机变量随机变量XX的一切可能取值的完备组中,各的一切可能取值的完备组中,各可能取值可能取值xixi与其相对应的概率与其相对应的概率pipi乘积之和乘积之和描述随机变量取值的集中程度描述随机变量取值的集中程度计算公式为计算公式为五、随机变量的数学期望五、随机变量的数学期望()iiEXxp=随机变量随机变量XX的每一个取值与期望值的离的每一个取值与期望值的离差平方和的数学期望,记为差平方和的数学期望,记为D(X)D(X)描述离散型随机变量取值的分散程度描述离散型随机变量取值的分散程度计算公式为计算公式为六、随机变量的方差六、随机变量的方差2()()iiDXxEXp=-5.2TheBinomialDistributions二项分布(了解)二项分布(了解)一、二项分布设定一、二项分布设定TheBinomialSettingTheBinomialSetting固定的观察次数固定的观察次数nn。
nn次的观察都独立,每次的观察都不会对次的观察都独立,每次的观察都不会对其他观察提供任何信息。
其他观察提供任何信息。
每次的观察都只有两种可能的结果,多假每次的观察都只有两种可能的结果,多假设为“成功”或“失败”两种。
设为“成功”或“失败”两种。
每次的观察“成功”的概率都一样,设定每次的观察“成功”的概率都一样,设定为为pp。
二、二项分布二、二项分布BinomialDistributionBinomialDistribution满足二项分布设定的试验,以满足二项分布设定的试验,以XX记录记录nn次观次观察中“成功”的次数,则称察中“成功”的次数,则称XX的分布为参数为的分布为参数为nn与与pp的二项分布的二项分布(binomial)(binomial),记为,记为B(n,B(n,p)p)。
XX的所有可能取值为的所有可能取值为0,1,n0,1,n。
对应的概率函数为对应的概率函数为P(X=x)=P(x)P(X=x)=P(x)。
()
(1)forx=0,1,&,nxxnxnPXxCpp-=-例例11某种昆虫在某地区的死亡率为某种昆虫在某地区的死亡率为40%40%,即即pp=0.4=0.4,现对这种害虫用一种新药进行治疗试,现对这种害虫用一种新药进行治疗试验,每次抽样验,每次抽样1010头作为一组治疗。
试问如新药无头作为一组治疗。
试问如新药无疗效,则在疗效,则在1010头中死头中死33头、头、22头、头、11头,以及全头,以及全部愈好的概率为多少?
部愈好的概率为多少?
按上述二项分布概率函数式计算按上述二项分布概率函数式计算7头愈好,头愈好,3头死去概率:
头死去概率:
8头愈好,头愈好,2头死去概率:
头死去概率:
9头愈好,头愈好,1头死去概率:
头死去概率:
10头全部愈好的概率:
头全部愈好的概率:
【例】【例】21499.0)60.0()40.0()3(73310CP12093.0)60.0()40.0()2(82210CP04031.0)60.0()40.0()1(91110CP00605.0)60.0()40.0()0(100010CP若若问问10头中不超过头中不超过2头死去的概率为头死去的概率为多少?
则应该应用累积函数,即多少?
则应该应用累积函数,即16729.012093.004031.000605.0)2()1()0()()2(20PPPyPF四、二项分布的期望值与标准差四、二项分布的期望值与标准差期望值:
E(X)=np方差:
Var(X)=np(1-p)标准差:
)1(pnp5.3NormalDistributions正态分布(掌握)正态分布(掌握)(连续型变量的概率分布)(连续型变量的概率分布)一、特点一、特点正态曲线正态曲线所有正态曲线都有相同的外型所有正态曲线都有相同的外型具有对称、单峰及钟形的特性。
具有对称、单峰及钟形的特性。
正态曲线所代表的分布即为正态分布正态曲线所代表的分布即为正态分布(normaldistribution)(normaldistribution)每一正态分布都有其平均值每一正态分布都有其平均值与标与标准差准差mmss一、特点正态曲线正态曲线较大较大mmss一、特点一、特点正态曲线的拐点拐点落在拐点落在一个处拐点落拐点落在在-处处一、特点二、二、P117P117规则规则正态分布有其特定的数据分布规则:
正态分布有其特定的数据分布规则:
平均值为平均值为,标准差为标准差为的正态的正态分布分布68%68%的观察资料落在的观察资料落在mm的的11之内之内95%95%的观察资料落在的观察资料落在mm的的22之内之内99.7%99.7%的观察资料落在的观察资料落在mm的的33之之内内0123-1-2-3mm+sm+2sm+3sm-sm-2sm-3s68%的料资95%的料资99.7%的料资三、P117规则四、变量标准化四、变量标准化(Standardization)(Standardization)令观察值令观察值xx服从平均值为服从平均值为,标准差为,标准差为的分布,则的分布,则xx的标准化值的标准化值(standardizedvalue)(standardizedvalue)定义为定义为标准化值又称为标准化值又称为z-z-值值(z-score)(z-score)。
xz标准化变量标准化变量可以证明可以证明zz的平均值为的平均值为00zz的标准差为的标准差为11四、变量标准化四、变量标准化(Standardization)(Standardization)xz五、标准正态分布五、标准正态分布变量变量XX服从平均值为服从平均值为,标准差为,标准差为的正态分布,简记为的正态分布,简记为XN(,2)XN(,2)。
XX经过标准化后为经过标准化后为ZZ(=(X-)/s)(=(X-)/s),则则ZZ也服从正态分布,并且平均值为也服从正态分布,并且平均值为00,标准差为,标准差为11,即,即ZN(0,1)ZN(0,1)。
我们称。
我们称ZZ服从标准正态服从标准正态(standardnormal)(standardnormal)。
六、标准正态表六、标准正态表z表列数字是z左边的面积z=-0.44z左边的面积为0.33-0.440.33z表列数字是表列数字是zz左边的面积左边的面积z=0.44zz左边的面积为左边的面积为0.67六、标准正态表七、双侧临界值七、双侧临界值在标准正态曲线图下,右方与左方在标准正态曲线图下,右方与左方的面积和为的面积和为aa,则称为标准正态分布概则称为标准正态分布概率为率为aa的双侧临界值。
可查表。
的双侧临界值。
可查表。
mm=0面积为面积为a/2a/2面积为面积为a/2a/2/2zaz/2za-/2za/2za-/2za八、单侧临界值八、单侧临界值在标准正态曲线图下,右方的面积为在标准正态曲线图下,右方的面积为aa,则称为标准正态分布概率为则称为标准正态分布概率为aa的的单侧临界值。
可查表单侧临界值。
可查表。
m=0面积为azazzaza正态分布(用Excel计算概率)第1步:
进入Excel表格界面,将鼠标停留在某一空白单元格第2步:
在Excel表格界面中,直接点击【f(x)】(粘贴函数)命令第3步:
在复选框“函数分类”中点击【统计】选项,并在“函数名”中点击【NORMDIST】选项,然后【确定】第4步:
在【X】后填入正态分布函数计算的区间点(本例为40)在【Mean】后填入正态分布的均值(本例为50)在【PStandard_dev】后填入标准差(本例为10)在【Cumulative】后填入1(或TRUE)表示计算事件出现次数小于或等于指定数值的累积概率值九、计算九、计算P126,选择题选择题12、13、14题题t-分布由正态分布导出的几个重要分布分布由正态分布导出的几个重要分布分布t-分布(t-distribution)1.1.提出者是提出者是WilliamGosset,也被称为学生分布,也被称为学生分布(studentst)2.t分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。
一个特定的分布依赖于称之为自由度的参数。
随着自由度的增大,散。
一个特定的分布依赖于称之为自由度的参数。
随着自由度的增大,分布也逐渐趋于正态分布分布也逐渐趋于正态分布xt分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)zt-分布(用Excel生成t分布的临界值表)1.利用Excel中的【TDIST】统计函数,可以计算给定值和自由度时分布的概率值l语法:
TDIST(x,degrees_freedom,tails)2.利用【TINV】函数则可以计算给定概率和自由度时的相应1.语法:
TINV(probability,degrees_freedom)用Excel生成t分布的临界值表1.为纪念统计学家费希尔(R.A.Fisher)以其姓氏的第一个字母来命名则2.设若U为服从自由度为n1的2分布,即U2(n1),V为服从自由度为n2的2分布,即V2(n2),且U和V相互独立,则.称F为服从自由度n1和n2的F分布,记为F-分布(Fdistribution)21nVnUF),(21nnFF2008年年5月月不同自由度的F分布(图示)F(1,10)(5,10)(10,10)F-分布(用Excel计算F分布的概率)1.利用Excel提供的【FDIST】统计函数,计算分布右单尾的概率值l语法:
FDIST(x,degrees_freedom1,degrees_freedom2)2.利用【FINV】函数则可以计算给定单尾概率和自由度时的相应l语法:
1.FINV(probability,degrees_freedom1,degrees_freedom2)用Excel计算F分布的概率5.4SamplingDistributions抽样分布抽样分布一、总体与样本populationandsample总体:
根据研究目的总体:
根据研究目的确定的同质研究对象确定的同质研究对象的全体(集合)。
分的全体(集合)。
分有限总体与无限总体有限总体与无限总体样本:
从总体中随机样本:
从总体中随机抽取的部分研究对象抽取的部分研究对象二、总体容量与样本容量populationsizeandsamplesize总体容量(总体容量(N):
总:
总体中所包含的个体数体中所包含的个体数目。
根据目。
根据N大小,大小,总体分有限总体和无总体分有限总体和无限总体限总体样本样本(n):
从总体中:
从总体中随机抽取的部分研究随机抽取的部分研究对象对象三、随机抽样randomsampling为了保证样本的可靠为了保证样本的可靠性和代表性,需要采性和代表性,需要采用随机的方法抽取样用随机的方法抽取样本(在总体中每个个本(在总体中每个个体具有相同的机会被体具有相同的机会被抽到)。
抽到)。
四、参数与统计量parameterandstatistic参数:
总体的统计指标,参数:
总体的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。
固定的常数固定的常数总体总体样样本本抽取部分观察单位抽取部分观察单位统计量统计量参数参数推断推断inference统计量:
样本的统计指标,如样本均数、标准差,采用英统计量:
样本的统计指标,如样本均数、标准差,采用英文字母分别记为。
参数附近波动的随机文字母分别记为。
参数附近波动的随机变量变量。
x、s五、总体均值、方差与标准差总体均值总体方差总体标准差1NiiXNm=221()NiiXNms=-=221()NiiXNms=-=六、样本均值、方差与标准差总体均值总体方差总体标准差1niixxn=221()1niixxsn=-=-21()1niixxsn=-=-1.容量相同的所有可能样本的样本均值的概率分布2.一种理论概率分布3.进行推断总体总体均值的理论基础七七、样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有【例】设一个总体,含有4个元素个元素(个体个体),即总体,即总体单位数单位数N=4。
4个个体分别为个个体分别为x1=1、x2=2、x3=3、x4=4。
总体的均值、方差及分布如下。
总体的均值、方差及分布如下总
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 概率 抽样 分布