判别分析的基本原理Word格式.docx
- 文档编号:7761208
- 上传时间:2023-05-09
- 格式:DOCX
- 页数:23
- 大小:258.94KB
判别分析的基本原理Word格式.docx
《判别分析的基本原理Word格式.docx》由会员分享,可在线阅读,更多相关《判别分析的基本原理Word格式.docx(23页珍藏版)》请在冰点文库上搜索。
X11B
X12B
XipB
—X2i(B)
X22B
X2pB
总体Gb的样本数据为:
…
・.■・■
Xn2iB
Xn22B
Xn2pB
XiB,X2BXpB
现任取一个新样品X,实测指标数值为X=(x1,x2,xp),要求判断X属于哪一类?
首先计算样品X与Ga、GB两类的距离,分别记为DX,Ga、DX,GB,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;
如果样品距离两类的距离相
同,则暂不归类。
判别准则写为:
XGa,如果DX,Ga:
DX,Gb,
XGb,如果DX,GaDX,Gb,
X待判,如果DX,Ga二DX,Gb。
其中,距离d的定义很多,根据不同情况区别选用。
如果样品的各个变量之间互不相关或相关很小时,可选用欧氏距离。
采用欧氏距离时,
DX,Ga='
(x:
.-x:
.(A))2
■
1p
DX,Gb>
^(^-^(B))2
然后比较DX,Ga和DX,Gb的大小,按照距离最近准则判别归类。
但实际应用中,考虑到判别分析常涉及到多个变量,且变量之间可能相关,故多用马氏
距离。
马氏距离公式为:
F
d2x,Ga二X-XaSA1x-Xa
21r
dX,gb=X-'
XbsBX-■Xb
其中XA、XB、Sa、Sb分别是Ga、Gb的均值和协方差阵。
这时的判别准则分两种情况给出:
(1)当Sa=Sb=S时
d2X,Gb-d2X,Ga
令x(a)+X(b),同时记W(x)=(d2(X,GB)-d2(X,GA))/2
则WX=X—XSdXa-Xb
所以判别准则写成:
X•Ga,如果WX0,
XGb,如果WX:
:
0,
X待判,如果WX=0。
该规则取决于WX的值,因此WX被称为判别函数,也可以写成:
WX=:
■X-X,其中〉=sXA_XB。
Wx被称为线性判别函数。
作为特例,当p=1时,两个总体的分布分别是NS,;
「2和N:
lL2,;
「2,判别函数为
W(X)=X-—|三(卩1-巴)
cr2
不妨设亠,这时WX的符号取决于X••I或X「I。
X「1时,判XGa;
两组距离判别法,简单容易理解,判别准则也是合理的,但是有时也会出现错判。
如下
图6.1,如果X来自Ga,但却落入D2,被错判为Gb组,错判的概率为图中阴影的面积,
记为P(2/1),类似有P(1/2),显然P(2/1)=P(1/2)=1一门(上2)。
当两总体靠的比较近时,即两总体的均值差异较小的时候,无论用何种判别方法,
错判的概率都比较大,这时的判别分析也是没有意义的。
因此只有当两总体的均值有显
著差异时,进行判别分析才有意义,为此,要对两总体的均值差异性进行检验,对此在下文中叙述。
(2)当SA=SB时
按照距离最近准则,类似地有:
XGa,如果DX,GaDX,GB,
XGb,如果DX,GaDX,GB,
X待判,如果DX,Ga二DX,Gb。
仍然用W(X)=d2X,GB-d2X,Ga
作为判别函数,此时的判别函数是X的二次函数。
(3)关于两组判别分析的检验
由于判别分析是假设两组样品是取自不同总体,如果两个总体的均值向量在统计上差异
不显著,则进行判别分析意义不大。
所以,两组判别分析的检验,实际就是要经验两个正态
总体的均值向量是否相等,为此,检验的统计量为:
给定检验水平,查F分布表使T■F.「「•,可得出F_.,再由样本值计算F,若
FF.,则否定原假设,认为两个总体的均值向量在统计上差异显著,否则两个总体的均
值向量在统计上差异不显著。
3、多个总体的距离判别法
类似两个总体的讨论推广到多个总体。
设有k个总体G…Gk
,相应抽出样品个数为n<
nk(n川'
…川'
nk)二n,每个样品观
测p个指标得观测数据如下,
总体Gk的样本数据为:
指标平均值为:
X(i)=(X|i,X2iXpi),i=1,2…k。
(1)当Si「二Sk二S时
此时d2X,Gi二X-XjS「X—Xj,i=1,2k
1
判别函数为WijX二—[d2(X,Gj)-d2(X,Gj)]
2
相应的判别准则为:
’X^Gj,当Wj(X)nO时,对于一切j知
J寺判,若有一个Wj(X)=O
(2)当S/'
Sk不相等时
此时判别函数为
FF
WjiX=X-XjSj^X-Xj-X-XiSi」X-Xi
相应的判别准则为:
XGi,当Wjx0时,对于一切j=i
待判,若有一个Wjx=0
(二)费舍判别法
费舍判别法是1936年提出来的,该方法对总体分布未提出什么特定的要求。
1.基本思想
费舍判别法是基于统计上的费舍准则,即判别的结果应该使两组间区别最大,使每组内
部离散性最小。
在费舍准则意义下,确定线性判别函数:
y“Xiox?
CpXp
其中G,Q…Cp为待求的判别函数的系数。
判别函数的系数的确定原则是使两组间区别最大,使每组内部离散性最小。
有了判别函数后,对于一个新的样品,将p个指标的具体
数值代入判别式中求出y值,然后与判别临界值进行比较,并判别其应属于哪一组。
2•两组判别分析
(1)方法原理
设有两组总体GA和GB,相应抽出样品个数为m,n2(nin2)=n,每个样品观测p个指标得观测数据如下,
Xiia
x21(A)
X22a
总体GA的样本数据为:
一
Xn1iA
第1个总体的样本指标平均值为:
XiA,X2AXpA
XiiB
Xi2B
Xn22B
第2个总体的样本指标平均值为:
XiB,X2B
XpB
pp
根据判别函数,用yA二7CkXkA表示Ga组样品的重心,以yB二7CkXkB表
k£
k丄
示Gb组样品的重心。
则两组之间的离差用(y(A)-y(B))来表示,Ga、Gb内部的离差程
ninp
度分别用vya-yA$和vyiB-yB2来表示,其中yiAACkXikA;
n=1n£
k=1
P
yiBA為CkXkB。
km
根据费舍准则,要使判别的结果满足两组间区别最大,每组内部离散性最小。
则判别函
数的系数59…Cp应该能够使:
.yA-yB
ni门2
'
yiA-yAyiB-yB2
i=1iW
取得最大值。
(2)判别系数的导出
令Q=(y(A)-y(B)f
nin2
F=迟(yi(A)-y(A)f+£
(yi(B)-y(B)丫
n』nW
Q
I
根据数学分析求极值的原理,对上式两边取对数:
Lnl=LnQ-LnF
PP山
八'
C4[、XikA-XkAXilA—X1A
k4l4i4
n2
+'
XikB-XkB为B-X|B]
i4
n1
Ski八XikA-XkAxHA-X|A+、XikB-XkBx,B-X|B
则有
—二2*Ci-Skl
-CklA
k=1,2P
■-是一个常数因子,不依赖k,它对方程组的解只起到共同扩大[倍的作用,不影响它的解g,C2,…,Cp之间的比例关系,因此也不会影响判别函数,所以,取组:
p
、ClSkl~dkk=1,2p
lm
=d1
d2
1-S11C1S12C^S1pCp
S21C1S22C2S2pCp
SplCi■Sp2C2■'
SppCp
解此方程即得g,C2,…,Cp,进而得判别函数:
y=GX1C2X2CpXp
(3)判别准则
由判别函数,可得两组总体Ga和Gb各自样品的重心:
yA八沐A
yB八CkXkB
k4
对它们进行根据样本的容量进行加权得:
n』(A)+n2『(B)
yAB-
m+n2
Yab称为两组判别的综合指标。
据此可得判别准则为:
①如果yA■Yab,则对于给定的新样品花必,…Xp,若有
y二GXiC2X2CpXpYab
则将该样品判属于
Ga组,右y-yAB,则判其属于GB组;
②如果YB-Yab,则对于给定的新样品Xi,X2/Xp,若有
y=&
洛C2X2CpXpYab
则将该样品判属于Gb组,若y乞Yab,则判其属于Ga组。
(4)两组判别分析的检验
所以,两组判别分析的检验,实际就是要检验两个正态
F二J1__Q2__t2~Fp,nin2-p-1
ni门2-2p
S二SaSb,
给定检验水平,查F分布表使£
-,可得出F:
.,再由样本值计算F,若
FF-,则否定原假设,认为两个总体的均值向量在统计上差异显著,判别函数有效,可
用;
否则两个总体的均值向量在统计上差异不显著,判别函数无效不可用。
3、多组费舍判别分析
类似两总体的费舍判别法,下面给出多总体的费舍判别法。
设有k个总体G,■-Gk,抽取
样品数分别为门!
,压,…nk,令n=厲+门2+…+珈。
x;
)=((广x;
)为第i个总体的第
个样品的观测向量。
假定所建立的判别函数为
y(x)二qx!
CpXp」cx
其中c(,Cp),x(Xi,,Xp)
记x为总的均值向量,贝yy=cx
在多总体情况下,Fisher准则就是要选取系数向量C,使
k
nKy(°
-y)2
■亠-
q^i
i=1
达到最大,其中是q人为的正的加权系数,它可以取为先验概率。
如果取qi=口-1,并将y⑴二ex"
))y=cx,匚i2=cs(i)c代入上式可化为:
cAc
E八qiS(i)
存在的必要条件,令1=0,利用对向量求导的公式:
据定义有,设A为n阶对称矩阵,E为n阶正定矩阵,若有Ac二,Be或A-,jBc=0,
则•称为A关于E矩阵的广义特征根,c是对应的特征向量)。
由于一般都要求加权协差
阵E是正定的,因此由代数知识可知,上式非零特征根个数m不超过min(k-1,p),又因
为E为非负定的,所以非零特征根必定为正根,记为
,2-<
m-0
于是可构造m个判别函数:
yi(x)二c⑴x1=1,,m
判别函数的判别能力与判别函数的个数。
由上述知,由于非零特征根,有m个,由此
对应有m个特征向量,即m个判别函数,为了选取有效的判别函数,对于每个判别函数必
须给出一个用以衡量判别能力的指标Pl,衡量判别函数判别能力的指标定义为:
mo个判别函数的判别能力定义为
如果mo达到某个人定的值(比如85%则就认为mo个判别函数就够了。
有了判别函数之后,如何对待判的样品进行分类?
Fisher判别法本身并未给出最合适的
分类法,在实际工作中可以选用下列分类法之一进行分类。
第一方法,当取m°
=i时(即只取一个判别函数),此时有两种可供选用的方法
1不加权法
丼/、一(D・(、—(j)
右y(x)-y=miny(x)-y
<
则判x•Gi
2加权法
将y⑴、y⑵…y(k)按大小次序排列,记为y⑴<
y(…_y(k),相应的判别函数的标
准差排为匚⑴。
令di,厲=SM°
+S1)%*I=1,…k-1
(Fi卅)+坊(I))
则di,i+可作为Gj^Gj“之间的分界点。
如果x使得di丄iEy(x)di,刊,,则判
xGj。
jI
第二种方法,当取m。
・1时(即取多个判别函数),也有类似两种供选用的方法
①不加权法
(i)(I)一(i)
记y|cx1=1,,m。
;
I二1,,k
对待判样品x(x1,,xp),计算
y(x)c⑴x
Di2八ji(x)-yP】’|
I=1
22
若DY=minDi,则判Gy
②加权法
考虑到每个判别函数的判别能力不同,记
Di2八
其中、是由Ac二,Ec求出的特征根。
若D2二minD2,则判x・G。
1J兰1i
(三)贝叶斯判别法
设有m个总体,G,G2…Gm,它们的先验概率分别为qi,q2…qm,密度函数为
£
X,f2X…fmX(在离散情形是概率函数),在观测到一个样品X的情况下,可用
贝叶斯公式计算它来自第g个总体的后验概率:
pgx]=nqigfgX,g72,m
迟qgfg(X)
并且当
Phx=maxPg.x
时,判定X来自第h个总体。
另外,有时为了合理考虑错判所带来的损失,还使用错判损失最小的概念确定判别函数,
这时,把X错判给第h个总体的平均损失定义为:
Ehx严fgxLhg
g"
qifix
i=1
其中Lhg称为损失函数。
它表示本来是第g个总体的样品错判为第h个总体的损失。
于是建立判别准则为,如果
E(h/x卜対监丘❻加)
则,判定X来自第h个总体。
显然考虑损失函数更为合理,但是由于实际应用中,由于Lhg不容易确定,经常在
数学模型中假定各种错判的损失皆相等,这样,寻找h使后验概率最大实际上等价于使错判
损失最小。
hh
phxjmax=Ehxjmin
根据上述思想,在假定协方差矩阵相等的条件下,即可以导出判别函数。
2.多元正态总体的Bayes判别法
在实际问题中遇到的许多总体往往服从正态分布,下面给出p元正态总体的Bayes判别
法,以及判别函数的导出。
(1)待判样品的先验概率和密度函数
使用Bayes准则进行分析,首先需要知道待判总体的先验概率qg和密度函数fg(x)(如
果是离散情形则是概率函数)。
ng
对于先验概率,一般可用样品频率来代替,即令qg-,其中ng为用于建立判别函
n
数的已知分类数据中来自第g总体样品的数目,且m•n2•nk=n,或者干脆令先验
概率相等,即qg,这时可以认为先验概率不起作用。
gk
对于第g总体的密度函数,设p元正态分布密度函数为:
fg(x)=(2兀)(g)乜‘exp』-*(x-『g))(g)(x-屮)
式中•((⑴和、'
(①分别是第g总体的均值向量(p维)和协差阵(p阶)。
把fg(x)代入P(gx)的表达式中,因为我们只关心寻找使P(gx)最大的g,而
分式中的分母不论g为何值都是常数,故可改令
g
qgfg(x)》max
对qgfg(x)取对数并去掉与g无关的项,记为,
则问题可化为
Z(gx)》max
Z(g.x)中含有k个总体的协方差阵(逆阵及行列式值),而且对于x还是二次函数,
形判别函数);
十1*
y(g/x)=In_丄汕)E」P(g)+x近」P(g)
’2
y(g/x)Tmax
上式判别函数也可以写成多项式形式:
y(gx)Inqg-C0g)'
C;
g)Xi
i4
其中,用样本资料这里为,
I寸寸ij(g)(g)
sxx,
2i=1j=1
总样本总协差S(Sij)pp为总协差阵匕的估计,
S’=(sij)'
pp为总协差阵S的逆矩阵。
(3)计算后验概率
进行计算分类时,主要根据判别式y(gx)的大小,而它不是后验概率P(gx),
但是有了y(gx)之后,就可以根据下式算出后验概率P(gx):
p(g.x)二
exp:
y(gx)
kj,
二exp'
y(ix)
其中.■:
(x)是In(qgfg(x))中与g无关的部分。
所以
qgfg(x)
qi((x)
exply(gx)二(x)
~~k
exp'
y(ix)l(x)
exp'
y(gx)expt(x)
二—■■
exp^y(ix)exp-=(x)
exp:
由上式知使y为最大的h,其P(hx)必为最大,因此我们只须把样品x代入判别式
中:
分别计算y(g/x),g=1,…,k。
若y(h「x)二max)(gx),则把样品x归为第h总体。
(4)辅助性检验
为了检验p个变量是否有能力区分这m个组,还需要用广义的马哈拉诺比斯D2统计
量来进行检验。
马氏统计量为:
ppm
D2=迟迟迟m衬区
(1)—剂凤)—xj)
idj4Id
统计量D2在正态分布各组均值、协方差阵全部相同的假定下,服从pm-1个自由度
的2分布。
所以,当统计量D2值大于查表得的临界值时,可以断定p个变量有能力区分这m个组。
贝叶斯方法一般多用于多组判别分析,贝叶斯判别方法的数学模型所要求的条件严格,它要求各组变量必须服从多元正态分布,各组的协方差矩阵相等,各组的均值向量有显著差
异。
而费舍判别法主要要求各组均值向量有显著差异即可。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 基本原理