书签分享收藏举报版权申诉 / 22

立即下载加入VIP,免费下载

当前位置：首页 > IT计算机 > 电脑基础知识 > matlab统计工具箱应用教程.docx

matlab统计工具箱应用教程.docx

文档编号：18490236
上传时间：2023-08-18
格式：DOCX
页数：22
大小：24.58KB

《matlab统计工具箱应用教程.docx》由会员分享，可在线阅读，更多相关《matlab统计工具箱应用教程.docx（22页珍藏版）》请在冰点文库上搜索。

matlab统计工具箱应用教程.docx

matlab统计工具箱应用教程

统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件（函数）,主要支持以下各方面的内容.

〉〉概率分布:

提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.

〉〉参数估计:

依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.

〉〉描述性统计:

提供描述数据样本特征的函数,包括位置和散布的度量,分位数估计值和数据处理缺失情况的函数等.

〉〉线性模型:

针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回归,逐步回归,响应曲面和岭回归等.

〉〉非线性模型:

为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的置信区间计算等.

〉〉假设检验:

此间提供最通用的假设检验函数:

t检验和z检验

〉〉其它的功能就不再介绍.

统计工具箱函数主要分为两类:

〉〉数值计算函数（M文件）

〉〉交互式图形函数（Gui）

matlab惯例:

beta线性模型中的参数，E（x）x的数学期望，f（x|a,b）概率密度函数，F（x|a,b）累积分布函数，I（[a,b]）指示（Indicator）函数

p,qp事件发生的概率.

[size=2][color=blue]

第1节概率分布[/color][/size]

统计工具箱提供的常见分布

Uniform均匀，Weibull威布尔，Noncentralt，Rayleigh瑞利，Poisson泊松，Student'st，Normal正态，NegativeBinomial，NoncentralF

Lognormal对数，正态，HyperG，F分布，Gamma，Geometric几何，Noncentralchi-square，Exponential指数，Binomial二项，Chi-square

Beta（分布），discrete，Continuous，Continuous，离散分布，统计量连续分布，数据连续分布，概率密度函数pdf，probbabilitydensityfunction

〉〉功能:

可选的通用概率密度函数

〉〉格式:

Y=pdf（'Name',X,A1,A1,A3）

'Name'为特定的分布名称,第一个字母必须大写

X为分布函数自变量取值矩阵

A1,A2,A3分别为相应分布的参数值

Y存放结果,为概率密度值矩阵

算例:

>>y=pdf（'Normal',-2:

2,0,1）

y=

0.05400.24200.39890.24200.0540

>>Y=pdf（'Normal',-2:

0.5:

2,1,4）

Y=

0.07530.08200.08800.09300.09670.09900.09970.09900.0967

>>p=pdf（'Poisson',0:

2:

8,2）

p=

0.13530.27070.09020.01200.0009

>>p=pdf（'F',1:

2:

10,4,7）

p=

0.42810.06360.01530.00520.0021

我们也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线

>>x=[-6:

0.05:

6];

>>y1=pdf（'Normal',x,0,0.5）;

>>y2=pdf（'Normal',x,0,1）;

>>y3=pdf（'Normal',x,0,2）;

>>y4=pdf（'Normal',x,0,4）;

>>plot（x,y1,'K-',x,y2,'K--',x,y3,'*',x,y4,'+'）

这个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.

累积分布函数及逆累积分布函数cdficdf

〉〉功能:

计算可选分布函数的累积分布和逆累积分布函数

〉〉格式:

P=cdf（'Name',X,A1,A2,A3）

X=icdf（'Name',P,A1,A2,A3）

>>x=[-3:

0.5:

3];

>>p=cdf（'Normal',x,0,1）

p=

0.00130.00620.02280.06680.15870.30850.50000.69150.84130.93320.97720.99380.9987

>>x=icdf（'Normal',p,0,1）

x=

-3.0000-2.5000-2.0000-1.5000-1.0000-0.500000.50001.00001.50002.00002.50003.0000

随机数产生器random

〉〉功能:

产生可选分布的随机数

〉〉格式:

y=random（'Name',A1,A2,A3,m,n）

A1,A2,A3分布的参数

'Name'分布的名称

m,n确定y的数量,如果参数是标量,则y是m*n矩阵

例如产生服从参数为（9,10）的F-分布的4个随机数值

>>y=random（'F',9,10,2,2）

y=

3.49071.6762

0.57021.1534

均值和方差以'stat'结尾的函数

均值和方差的计算函数

[m,v]=normstat（mu,sigma）

正态分布

[mn,v]=hygestat（M,K,N）

超几何分布

[m,v]=geostat（P）

几何分布

[m,v]=gamstat（A,B）

Gamma分布

[m,v]=fstat（v1,v2）

F分布

[m,v]=expstat（mu）

指数分布

[m,v]=chi2stat（nu）

Chi-squrare分布

[m,v]=binostat（N,P）

二项分布

[m,v]=betastat（A,B）

Beta分布

函数名称及调用格式

分布类型名称

[m,v]=weibstat（A,B）

威尔分布

[m,v]=unistat（A,B）

连续均匀分布

[m,v]=unidstat（N）

离散均匀分布

[m,v]=tstat（nu）

t分布

[m,v]=raylstat（B）

瑞利分布

[m,v]=poisstat（lambda）

泊松分布

[m,v]=ncx2stat（nu,delta）

非中心chi2分布

[m,v]=nctstat（nu,delta）

非中心t分布

[m,v]=ncfstat（nu1,nu2,delta）

非中心F分布

[m,v]=nbinstat（R,P）

负二项分布

[m,v]=lognstat（mu,sigma）

对数正态分布

[size=2][color=blue]

第2节参数估计[/color][/size]

参数估计是总体的分布形式已经知道,且可以用有限个参数表示的估计问题.分为点估计（极大似燃估计Maximumlikehoodestimation,MLE）和区间估计.

求取各种分布的最大似然估计估计量mle

〉〉格式:

phat=mle（'dist',data）

[phat,pci]=mle（'dist',data）

[phat,pci]=mle（'dist',data,alpha）

[phat,pci]=mle（'dist',data,alpha,p1）

〉〉'dist'给定的特定分布的名称,'beta','binomial'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100（1-alpha）%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.

例1计算beta分布的两个参数的似然估计和区间估计（alpha=0.1,0.05,0.001）,样本由随机数产生.

>>random（'beta',4,3,100,1）;

>>[p,pci]=mle（'beta',r,0.1）

p=

4.66133.5719

pci=

3.67212.7811

5.65044.3626

>>[p,pci]=mle（'beta',r,0.05）

p=

4.66133.5719

pci=

3.48272.6296

5.83994.5141

>>[p,pci]=mle（'beta',r,0.001）

p=

4.66133.5719

pci=

2.68251.9900

6.64015.1538

例2计算二项分布的参数估计与区间估计,alpha=0.01.

>>r=random（'Binomial',10,0.2,10,1）;

>>[p,pci]=mle（'binomial',r,0.01,10）

p=

0.20000.20000.10000.40000.20000.20000.400000.10000.2000

pci=

0.01090.01090.00050.07680.01090.01090.0768NaN0.00050.0109

0.64820.64820.54430.80910.64820.64820.80910.41130.54430.6482

[size=2][color=blue]

第3节描述统计[/color][/size]

描述性统计包括:

位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度,样本偏度,自助法等

〉〉位置度量:

几何均值（geomean）,调和均值（harmmean）,算术平均值（mean）,中位数（median）,修正的样本均值（trimean）.

〉〉散布度量:

方差（var）,内四分位数间距（iqr）,平均绝对偏差（mad）,样本极差（range）,标准差（std）,任意阶中心矩（moment）,协方差矩阵（cov）.

〉〉缺失数据情况下的处理:

忽视缺失数据的最大值（nanmax）,忽视缺失数据的平均值（nanmean）,忽视缺失数据的中位数（nanmedian）,忽视缺失数据的最小值（nanmin）,忽视缺失数据的标准差（nanstd）,忽视缺失数据的和（namsum）.

〉〉相关系数:

corrcoef,计算相关系数

〉〉样本分位数:

prctile,计算样本的经验分位数

〉〉样本峰度:

kurtosis,计算样本峰度

〉〉样本偏度:

skewness,计算样本偏度

〉〉自助法:

bootstrp,对样本从新采样进行自助统计

中心趋势（位置）度量

样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值（输入错误或其它小的技术问题造成的）.样本均值对这样的值非常敏感.中位数和修正（剔除样本高值和低值）后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.

〉〉geomean

功能:

样本的几何均值

格式:

m=geomean（X）

若X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.

例1计算随机数产生的样本的几何均值

>>X=random（'F',10,10,100,1）;

>>m=geomean（X）

m=

1.1007

>>X=random（'F',10,10,100,5）;

>>m=geomean（X）

m=

0.96611.02660.97031.02681.0333

〉〉harmmean

功能:

样本的调和均值

格式:

m=harmmean（X）

例2计算随机数的调和均值

>>X=random（'Normal',0,1,50,5）;

>>m=harmmean（X）

m=

-0.2963-0.0389-0.93435.20320.7122

〉〉mean

功能:

样本数据的算术平均值

格式:

m=mean（x）

例3计算正态随机数的算术平均数

>>X=random（'Normal',0,1,300,5）;

>>xbar=mean（X）

xbar=

0.0422-0.0011-0.02820.0616-0.0080

〉〉median

功能:

样本数据的中值（中位数）,是对中心位值的鲁棒估计.

格式:

m=median（X）

例4计算本的中值

>>X=random（'Normal',0,1,5,3）

X=

0.00000.89560.5689

-0.31790.7310-0.2556

1.09500.5779-0.3775

-1.87400.0403-0.2959

0.42820.6771-1.4751

>>m=median（X）

m=

0.00000.6771-0.2959

〉〉trimmean

功能:

剔除极端数据的样本均值.

格式:

m=trimmean（X,percent）

说明:

计算剔除观测值中最高percent%和最低percent%的数据后的均值

例5计算修改后的样本均值

>>X=random（'F',9,10,100,4）;

>>m=trimmean（X,10）

m=

1.14701.13201.16141.0469

散布度量

散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对差,四分位数间距

〉〉iqr

功能:

计算样本的内四分位数的间距,是样本的鲁棒估计

格式:

y=iqr（X）

说明:

计算样本的75%和25%的分位数之差,不受野值影响.

例6计算样本的四分位间距

>>X=random（'Normal',0,1,100,4）;

>>m=iqr（X）

m=

1.32251.27301.30181.2322

〉〉mad

功能:

样本数据的平均绝对偏差

格式:

y=mad（X）

说明:

正态分布的标准差sigma可以用mad乘以1.3估计

例7计算样本数据的绝对偏差

>>X=random（'F',10,10,100,4）;

>>y=mad（X）

y=

0.57170.53660.66420.7936

>>y1=var（X）

y1=

0.67880.68750.75991.3240

>>y2=y*1.3

y2=

0.88240.89380.98791.7212

〉〉range

功能:

计算样本极差

格式:

y=range（X）

说明:

极差对野值敏感

例8计算样本值的极差

>>X=random（'F',10,10,100,4）;

>>y=range（X）

y=

10.84873.59414.26974.0814

〉〉var

功能:

计算样本方差

格式:

y=var（X）y=var（X,1）y=var（X,w）

Var（X）经过n-1进行了标准化,Var（X,1）经过n进行了标准变化

例9计算各类方差

>>X=random（'Normal',0,1,100,4）;

>>y=var（X）

y=

0.96450.82090.95950.9295

>>y1=var（X,1）

y1=

0.95480.81260.94990.9202

>>w=[1:

1:

100];

>>y2=var（X,w）

y2=

0.90950.75290.96600.9142

〉〉std

功能:

样本的标准差

格式:

y=std（X）

说明:

经过n-1标准化后的标准差

例10计算随机样本的标准差

>>X=random（'Normal',0,1,100,4）;

>>y=std（X）

y=

0.86850.94470.95690.9977

〉〉cov

功能:

协方差矩阵

格式:

C=cov（X）C=cov（x,y）C=cov（[xy]）

说明:

若X为向量,cov（X）返回一个方差标量;若X为矩阵,则返回协方差矩阵;cov（x,y）与cov（[xy]）相同,x与y的长度相同.

例11计算协方差

>>x=random（'Normal',2,4,100,1）;

>>y=random（'Normal',0,1,100,1）;

>>C=cov（x,y）

C=

12.0688-0.0583

-0.05830.8924

处理缺失数据的函数

在对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"（notanumber）标注这样的数据.这种情况下,一般的函数得不到任何信息.

例如m中包含nan数据

>>m=magic（3）;

>>m（[159]）=[NaNNaNNaN];

>>sum（m）

ans=

NaNNaNNaN

但是通过缺失数据的处理,得到有用的信息.

>>nansum（m）

ans=

71013

〉〉nanmax

功能:

忽视NaN（不确定的值）,求其它数据的最大值

格式:

m=nanmax（X）

[m,ndx]=nanmax（X）

m=nanmax（a,b）

说明:

nanmax（X）返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax（X）还返回X最大值的序号给ndx.m=nanmax（a,b）返回a或者b的最大值,a,b长度同

>>m=magic（3）;

>>m（[159]）=[NaNNaNNaN];

>>[m,ndx]=nanmax（m）

m=

497

ndx=

332

处理缺失数据的常用函数

Y=nansum（X）

求包含确实数据的和

nansum

Y=nanstd（X）

求包含确实数据的标准差

Nanstd

Y=nanmedian（X）

求包含确实数据中位数

Nanmedian

Y=nanmean（X）

求包含确实数据的平均值

Nanmean

同上

求包含确实数据的最小值

Nanmin

（略）

求包含确实数据的最大值

Nanmax

调用格式

功能

函数名称

中心矩moment

功能:

任意阶的中心矩

格式:

m=moment（X,order）

说明:

order为阶,函数本身除以X的长度

例12计算样本函数的中心矩

>>X=random（'Poisson',2,100,4）;

>>m=moment（X,1）

m=

0000

>>m=moment（X,2）

m=

1.76042.03001.63362.3411

>>m=moment（X,3）

m=

1.37792.55002.35262.2964

百分位数及其图形描述

白分位数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明

〉〉prctile

功能:

计算样本的百分位数

格式:

y=prctile（X,p）

说明:

计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p（i）百分位数.例如

>>x=（1:

5）'*（1:

5）

x=

12345

246810

3691215

48121620

510152025

>>y=prctile（x,[25,50,75]）

y=

1.75003.50005.25007.00008.7500

3.00006.00009.000012.000015.0000

4.25008.500012.750017.000021.2500

做出相应的百分位数的图形

>>boxplot（x）

5列分位数构造5个盒图,见下页.

matlab统计工具箱应用教程.docx

热门标签