matlab统计工具箱应用教程.docx
- 文档编号:18490236
- 上传时间:2023-08-18
- 格式:DOCX
- 页数:22
- 大小:24.58KB
matlab统计工具箱应用教程.docx
《matlab统计工具箱应用教程.docx》由会员分享,可在线阅读,更多相关《matlab统计工具箱应用教程.docx(22页珍藏版)》请在冰点文库上搜索。
matlab统计工具箱应用教程
统计工具箱是matlab提供给人们的一个强有力的统计分析工具.包含200多个m文件(函数),主要支持以下各方面的内容.
〉〉概率分布:
提供了20种概率分布,包含离散和连续分布,且每种分布,提供了5个有用的函数,即概率密度函数,累积分布函数,逆累积分布函数,随机产生器与方差计算函数.
〉〉参数估计:
依据特殊分布的原始数据,可以计算分布参数的估计值及其置信区间.
〉〉描述性统计:
提供描述数据样本特征的函数,包括位置和散布的度量,分位数估计值和数据处理缺失情况的函数等.
〉〉线性模型:
针对线性模型,工具箱提供的函数涉及单因素方差分析,双因素方差分析,多重线性回归,逐步回归,响应曲面和岭回归等.
〉〉非线性模型:
为非线性模型提供的函数涉及参数估计,多维非线性拟合的交互预测和可视化以及参数和预计值的置信区间计算等.
〉〉假设检验:
此间提供最通用的假设检验函数:
t检验和z检验
〉〉其它的功能就不再介绍.
统计工具箱函数主要分为两类:
〉〉数值计算函数(M文件)
〉〉交互式图形函数(Gui)
matlab惯例:
beta线性模型中的参数,E(x)x的数学期望,f(x|a,b)概率密度函数,F(x|a,b)累积分布函数,I([a,b])指示(Indicator)函数
p,qp事件发生的概率.
[size=2][color=blue]
第1节概率分布[/color][/size]
统计工具箱提供的常见分布
Uniform均匀,Weibull威布尔,Noncentralt,Rayleigh瑞利,Poisson泊松,Student'st,Normal正态,NegativeBinomial,NoncentralF
Lognormal对数,正态,HyperG,F分布,Gamma,Geometric几何,Noncentralchi-square,Exponential指数,Binomial二项,Chi-square
Beta(分布),discrete,Continuous,Continuous,离散分布,统计量连续分布,数据连续分布,概率密度函数pdf,probbabilitydensityfunction
〉〉功能:
可选的通用概率密度函数
〉〉格式:
Y=pdf('Name',X,A1,A1,A3)
'Name'为特定的分布名称,第一个字母必须大写
X为分布函数自变量取值矩阵
A1,A2,A3分别为相应分布的参数值
Y存放结果,为概率密度值矩阵
算例:
>>y=pdf('Normal',-2:
2,0,1)
y=
0.05400.24200.39890.24200.0540
>>Y=pdf('Normal',-2:
0.5:
2,1,4)
Y=
0.07530.08200.08800.09300.09670.09900.09970.09900.0967
>>p=pdf('Poisson',0:
2:
8,2)
p=
0.13530.27070.09020.01200.0009
>>p=pdf('F',1:
2:
10,4,7)
p=
0.42810.06360.01530.00520.0021
我们也可以利用这种计算功能和作图功能,绘制一下密度函数曲线,例如,绘制不同的正态分布的密度曲线
>>x=[-6:
0.05:
6];
>>y1=pdf('Normal',x,0,0.5);
>>y2=pdf('Normal',x,0,1);
>>y3=pdf('Normal',x,0,2);
>>y4=pdf('Normal',x,0,4);
>>plot(x,y1,'K-',x,y2,'K--',x,y3,'*',x,y4,'+')
这个程序计算了mu=0,而sigma取不同值时的正态分布密度函数曲线的形态,可以看出,sigma越大,曲线越平坦.
累积分布函数及逆累积分布函数cdficdf
〉〉功能:
计算可选分布函数的累积分布和逆累积分布函数
〉〉格式:
P=cdf('Name',X,A1,A2,A3)
X=icdf('Name',P,A1,A2,A3)
>>x=[-3:
0.5:
3];
>>p=cdf('Normal',x,0,1)
p=
0.00130.00620.02280.06680.15870.30850.50000.69150.84130.93320.97720.99380.9987
>>x=icdf('Normal',p,0,1)
x=
-3.0000-2.5000-2.0000-1.5000-1.0000-0.500000.50001.00001.50002.00002.50003.0000
随机数产生器random
〉〉功能:
产生可选分布的随机数
〉〉格式:
y=random('Name',A1,A2,A3,m,n)
A1,A2,A3分布的参数
'Name'分布的名称
m,n确定y的数量,如果参数是标量,则y是m*n矩阵
例如产生服从参数为(9,10)的F-分布的4个随机数值
>>y=random('F',9,10,2,2)
y=
3.49071.6762
0.57021.1534
均值和方差以'stat'结尾的函数
均值和方差的计算函数
[m,v]=normstat(mu,sigma)
正态分布
[mn,v]=hygestat(M,K,N)
超几何分布
[m,v]=geostat(P)
几何分布
[m,v]=gamstat(A,B)
Gamma分布
[m,v]=fstat(v1,v2)
F分布
[m,v]=expstat(mu)
指数分布
[m,v]=chi2stat(nu)
Chi-squrare分布
[m,v]=binostat(N,P)
二项分布
[m,v]=betastat(A,B)
Beta分布
函数名称及调用格式
分布类型名称
[m,v]=weibstat(A,B)
威尔分布
[m,v]=unistat(A,B)
连续均匀分布
[m,v]=unidstat(N)
离散均匀分布
[m,v]=tstat(nu)
t分布
[m,v]=raylstat(B)
瑞利分布
[m,v]=poisstat(lambda)
泊松分布
[m,v]=ncx2stat(nu,delta)
非中心chi2分布
[m,v]=nctstat(nu,delta)
非中心t分布
[m,v]=ncfstat(nu1,nu2,delta)
非中心F分布
[m,v]=nbinstat(R,P)
负二项分布
[m,v]=lognstat(mu,sigma)
对数正态分布
[size=2][color=blue]
第2节参数估计[/color][/size]
参数估计是总体的分布形式已经知道,且可以用有限个参数表示的估计问题.分为点估计(极大似燃估计Maximumlikehoodestimation,MLE)和区间估计.
求取各种分布的最大似然估计估计量mle
〉〉格式:
phat=mle('dist',data)
[phat,pci]=mle('dist',data)
[phat,pci]=mle('dist',data,alpha)
[phat,pci]=mle('dist',data,alpha,p1)
〉〉'dist'给定的特定分布的名称,'beta','binomial'等.Data为数据样本,矢量形式给出.Alpha用户给定的置信度值,以给出100(1-alpha)%的置信区间,缺省为0.05.最后一种是仅供二项分布参数估计,p1为实验次数.
例1计算beta分布的两个参数的似然估计和区间估计(alpha=0.1,0.05,0.001),样本由随机数产生.
>>random('beta',4,3,100,1);
>>[p,pci]=mle('beta',r,0.1)
p=
4.66133.5719
pci=
3.67212.7811
5.65044.3626
>>[p,pci]=mle('beta',r,0.05)
p=
4.66133.5719
pci=
3.48272.6296
5.83994.5141
>>[p,pci]=mle('beta',r,0.001)
p=
4.66133.5719
pci=
2.68251.9900
6.64015.1538
例2计算二项分布的参数估计与区间估计,alpha=0.01.
>>r=random('Binomial',10,0.2,10,1);
>>[p,pci]=mle('binomial',r,0.01,10)
p=
0.20000.20000.10000.40000.20000.20000.400000.10000.2000
pci=
0.01090.01090.00050.07680.01090.01090.0768NaN0.00050.0109
0.64820.64820.54430.80910.64820.64820.80910.41130.54430.6482
[size=2][color=blue]
第3节描述统计[/color][/size]
描述性统计包括:
位置度量,散布度量,缺失数据下的统计处理,相关系数,样本分位数,样本峰度,样本偏度,自助法等
〉〉位置度量:
几何均值(geomean),调和均值(harmmean),算术平均值(mean),中位数(median),修正的样本均值(trimean).
〉〉散布度量:
方差(var),内四分位数间距(iqr),平均绝对偏差(mad),样本极差(range),标准差(std),任意阶中心矩(moment),协方差矩阵(cov).
〉〉缺失数据情况下的处理:
忽视缺失数据的最大值(nanmax),忽视缺失数据的平均值(nanmean),忽视缺失数据的中位数(nanmedian),忽视缺失数据的最小值(nanmin),忽视缺失数据的标准差(nanstd),忽视缺失数据的和(namsum).
〉〉相关系数:
corrcoef,计算相关系数
〉〉样本分位数:
prctile,计算样本的经验分位数
〉〉样本峰度:
kurtosis,计算样本峰度
〉〉样本偏度:
skewness,计算样本偏度
〉〉自助法:
bootstrp,对样本从新采样进行自助统计
中心趋势(位置)度量
样本中心趋势度量的目的在于对数据样本在分布线上分布的中心位置予以定为.均值是对中心位置简单和通常的估计量.不幸的是,几乎所有的实际数据都存在野值(输入错误或其它小的技术问题造成的).样本均值对这样的值非常敏感.中位数和修正(剔除样本高值和低值)后的均值则受野值干扰很小.而几何均值和调和均值对野值也较敏感.下面逐个说明这些度量函数.
〉〉geomean
功能:
样本的几何均值
格式:
m=geomean(X)
若X为向量,则返回X中元素的几何均值;若X位矩阵,给出的结果为一个行向量,即每列几何均值.
例1计算随机数产生的样本的几何均值
>>X=random('F',10,10,100,1);
>>m=geomean(X)
m=
1.1007
>>X=random('F',10,10,100,5);
>>m=geomean(X)
m=
0.96611.02660.97031.02681.0333
〉〉harmmean
功能:
样本的调和均值
格式:
m=harmmean(X)
例2计算随机数的调和均值
>>X=random('Normal',0,1,50,5);
>>m=harmmean(X)
m=
-0.2963-0.0389-0.93435.20320.7122
〉〉mean
功能:
样本数据的算术平均值
格式:
m=mean(x)
例3计算正态随机数的算术平均数
>>X=random('Normal',0,1,300,5);
>>xbar=mean(X)
xbar=
0.0422-0.0011-0.02820.0616-0.0080
〉〉median
功能:
样本数据的中值(中位数),是对中心位值的鲁棒估计.
格式:
m=median(X)
例4计算本的中值
>>X=random('Normal',0,1,5,3)
X=
0.00000.89560.5689
-0.31790.7310-0.2556
1.09500.5779-0.3775
-1.87400.0403-0.2959
0.42820.6771-1.4751
>>m=median(X)
m=
0.00000.6771-0.2959
〉〉trimmean
功能:
剔除极端数据的样本均值.
格式:
m=trimmean(X,percent)
说明:
计算剔除观测值中最高percent%和最低percent%的数据后的均值
例5计算修改后的样本均值
>>X=random('F',9,10,100,4);
>>m=trimmean(X,10)
m=
1.14701.13201.16141.0469
散布度量
散布度量是描述样本中数据离其中心的程度,也称离差.常用的有极差,标准差,平均绝对差,四分位数间距
〉〉iqr
功能:
计算样本的内四分位数的间距,是样本的鲁棒估计
格式:
y=iqr(X)
说明:
计算样本的75%和25%的分位数之差,不受野值影响.
例6计算样本的四分位间距
>>X=random('Normal',0,1,100,4);
>>m=iqr(X)
m=
1.32251.27301.30181.2322
〉〉mad
功能:
样本数据的平均绝对偏差
格式:
y=mad(X)
说明:
正态分布的标准差sigma可以用mad乘以1.3估计
例7计算样本数据的绝对偏差
>>X=random('F',10,10,100,4);
>>y=mad(X)
y=
0.57170.53660.66420.7936
>>y1=var(X)
y1=
0.67880.68750.75991.3240
>>y2=y*1.3
y2=
0.88240.89380.98791.7212
〉〉range
功能:
计算样本极差
格式:
y=range(X)
说明:
极差对野值敏感
例8计算样本值的极差
>>X=random('F',10,10,100,4);
>>y=range(X)
y=
10.84873.59414.26974.0814
〉〉var
功能:
计算样本方差
格式:
y=var(X)y=var(X,1)y=var(X,w)
Var(X)经过n-1进行了标准化,Var(X,1)经过n进行了标准变化
例9计算各类方差
>>X=random('Normal',0,1,100,4);
>>y=var(X)
y=
0.96450.82090.95950.9295
>>y1=var(X,1)
y1=
0.95480.81260.94990.9202
>>w=[1:
1:
100];
>>y2=var(X,w)
y2=
0.90950.75290.96600.9142
〉〉std
功能:
样本的标准差
格式:
y=std(X)
说明:
经过n-1标准化后的标准差
例10计算随机样本的标准差
>>X=random('Normal',0,1,100,4);
>>y=std(X)
y=
0.86850.94470.95690.9977
〉〉cov
功能:
协方差矩阵
格式:
C=cov(X)C=cov(x,y)C=cov([xy])
说明:
若X为向量,cov(X)返回一个方差标量;若X为矩阵,则返回协方差矩阵;cov(x,y)与cov([xy])相同,x与y的长度相同.
例11计算协方差
>>x=random('Normal',2,4,100,1);
>>y=random('Normal',0,1,100,1);
>>C=cov(x,y)
C=
12.0688-0.0583
-0.05830.8924
处理缺失数据的函数
在对大量数据样本时,常常遇到一些无法确定的或者无法找到确切的值.在这种情况下,用符号"NaN"(notanumber)标注这样的数据.这种情况下,一般的函数得不到任何信息.
例如m中包含nan数据
>>m=magic(3);
>>m([159])=[NaNNaNNaN];
>>sum(m)
ans=
NaNNaNNaN
但是通过缺失数据的处理,得到有用的信息.
>>nansum(m)
ans=
71013
〉〉nanmax
功能:
忽视NaN(不确定的值),求其它数据的最大值
格式:
m=nanmax(X)
[m,ndx]=nanmax(X)
m=nanmax(a,b)
说明:
nanmax(X)返回X中数据除nan外的其它的数据的最大值,[m,ndx]=nanmax(X)还返回X最大值的序号给ndx.m=nanmax(a,b)返回a或者b的最大值,a,b长度同
>>m=magic(3);
>>m([159])=[NaNNaNNaN];
>>[m,ndx]=nanmax(m)
m=
497
ndx=
332
处理缺失数据的常用函数
Y=nansum(X)
求包含确实数据的和
nansum
Y=nanstd(X)
求包含确实数据的标准差
Nanstd
Y=nanmedian(X)
求包含确实数据中位数
Nanmedian
Y=nanmean(X)
求包含确实数据的平均值
Nanmean
同上
求包含确实数据的最小值
Nanmin
(略)
求包含确实数据的最大值
Nanmax
调用格式
功能
函数名称
中心矩moment
功能:
任意阶的中心矩
格式:
m=moment(X,order)
说明:
order为阶,函数本身除以X的长度
例12计算样本函数的中心矩
>>X=random('Poisson',2,100,4);
>>m=moment(X,1)
m=
0000
>>m=moment(X,2)
m=
1.76042.03001.63362.3411
>>m=moment(X,3)
m=
1.37792.55002.35262.2964
百分位数及其图形描述
白分位数图形可以直观观测到样本的大概中心位置和离散程度,可以对中心趋势度量和散布度量作补充说明
〉〉prctile
功能:
计算样本的百分位数
格式:
y=prctile(X,p)
说明:
计算X中数据大于P%的值,P的取值区间为[0,100],如果X为向量,返回X中P百分位数;X为矩阵,给出一个向量;如果P为向量,则y的第i个行对应于X的p(i)百分位数.例如
>>x=(1:
5)'*(1:
5)
x=
12345
246810
3691215
48121620
510152025
>>y=prctile(x,[25,50,75])
y=
1.75003.50005.25007.00008.7500
3.00006.00009.000012.000015.0000
4.25008.500012.750017.000021.2500
做出相应的百分位数的图形
>>boxplot(x)
5列分位数构造5个盒图,见下页.
相关系数corrcoef
功能:
相关系数
格式:
R=corrcoef(X)
例13合金的强度y与含碳量x的样本如下,试计算r(x,y).
>>X=[4142.54545.54547.54951505557.559.5;
0.1,0.110.120.130.140.150.160.170.180.200.220.24]';
>>R=corrcoef(X)
R=
1.00000.9897
0.98971.0000
样本峰度kurtosis
功能:
样本峰度
格式:
k=kurtosis(X)
说明:
峰度为单峰分布区线"峰的平坦程度"的度量,其定义为
Matlab工具箱中峰度不采用一般定义(k-3,标准正态分布的峰度为0).而是定义标准正态分布峰度为3,曲线比正态分布平坦,峰度大于3,反之,小于3.
例14计算随机样本的峰度
>>X=random('F',10,20,100,4);
>>k=kurtosis(X)
k=
6.56615.5851
6.03497.0129
样本偏度skewness
功能:
样本偏度
格式:
y=skewness(X)
说明:
偏度是度量样本围绕其均值的对称情况.如果偏度为负,则数据分布偏向左边,反之,偏向右边.其定义为
>>X=random('F',9,10,100,4);
>>y=skewness(X)
y=
1.09341.55132.05222.9240
自助法bootstrap
引例:
一组来自15个法律学校的学生的lsat分数和gpa进行比较的样本.
>loadlawdata
>>x=[lsatgpa]
x=
576.00003.3900
635.00003.3000
558.00002.8100
578.00003.0300
666.00003.4400
580.00003.0700
555.00003.0000
661.00003.4300
651.00003.3600
605.00003.1300
653.00003.1200
575.00002.7400
545.00002.7600
572.00002.8800
594.00002.9600
绘图,并进行曲线拟合
>>plot(lsat,gpa,'+')
>>lsline
通过上图的拟合可以看出,lsat随着gpa增长而提高,但是我们确信此结论的程度是多少曲线只给出了直观表现,没有量的表示.计算相关系数
>>y=corrcoef(lsat,gpa)
y=
1.00000.7764
0.77641.0000
相关系数是0.7764,但是由于样本容量n=15比较小,我们仍然不能确定在统计上相关的显著性多大.应此,必须采用bootstrp函数对lsat和gpa样本来从新采样,并考察相关系数的变化.
>>y1000=bootstrp(1000,'corrcoef',lsat,gpa);
>>hist(y1000(:
2),30)
绘制lsat,gpa和相关系数得直方图如下
结果显示,相关系数绝大多数在区间[0.4,1]内,表明lsat分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- matlab 统计 工具箱 应用 教程
![提示](https://static.bingdoc.com/images/bang_tan.gif)