书签分享收藏举报版权申诉 / 23

立即下载加入VIP,免费下载

当前位置：首页 > 经管营销 > 销售营销 > 判别分析的基本原理Word格式.docx

判别分析的基本原理Word格式.docx

文档编号：7761208
上传时间：2023-05-09
格式：DOCX
页数：23
大小：258.94KB

《判别分析的基本原理Word格式.docx》由会员分享，可在线阅读，更多相关《判别分析的基本原理Word格式.docx（23页珍藏版）》请在冰点文库上搜索。

判别分析的基本原理Word格式.docx

X11B

X12B

XipB

—X2i（B）

X22B

X2pB

总体Gb的样本数据为：

…

・.■・■

Xn2iB

Xn22B

Xn2pB

XiB,X2BXpB

现任取一个新样品X，实测指标数值为X=（x1,x2,xp），要求判断X属于哪一类？

首先计算样品X与Ga、GB两类的距离，分别记为DX,Ga、DX,GB，然后按照距离最近准则判别归类，即样品距离哪一类最近就判为哪一类；

如果样品距离两类的距离相

同，则暂不归类。

判别准则写为：

XGa，如果DX,Ga:

DX,Gb，

XGb，如果DX,GaDX,Gb，

X待判，如果DX,Ga二DX,Gb。

其中，距离d的定义很多，根据不同情况区别选用。

如果样品的各个变量之间互不相关或相关很小时，可选用欧氏距离。

采用欧氏距离时，

DX,Ga='

（x：

.-x：

.（A））2

■

1p

DX,Gb>

^（^-^（B））2

然后比较DX,Ga和DX,Gb的大小，按照距离最近准则判别归类。

但实际应用中，考虑到判别分析常涉及到多个变量，且变量之间可能相关，故多用马氏

距离。

马氏距离公式为：

F

d2x,Ga二X-XaSA1x-Xa

21r

dX,gb=X-'

XbsBX-■Xb

其中XA、XB、Sa、Sb分别是Ga、Gb的均值和协方差阵。

这时的判别准则分两种情况给出：

（1）当Sa=Sb=S时

d2X,Gb-d2X,Ga

令x（a）+X（b），同时记W（x）=（d2（X,GB）-d2（X,GA））/2

则WX=X—XSdXa-Xb

所以判别准则写成:

X•Ga，如果WX0，

XGb，如果WX:

:

0，

X待判，如果WX=0。

该规则取决于WX的值，因此WX被称为判别函数，也可以写成:

WX=：

■X-X，其中〉=sXA_XB。

Wx被称为线性判别函数。

作为特例，当p=1时，两个总体的分布分别是NS,；

「2和N：

lL2,；

「2，判别函数为

W（X）=X-—|三（卩1-巴）

cr2

不妨设亠，这时WX的符号取决于X••I或X「I。

X「1时，判XGa；

两组距离判别法，简单容易理解，判别准则也是合理的，但是有时也会出现错判。

如下

图6.1，如果X来自Ga，但却落入D2，被错判为Gb组，错判的概率为图中阴影的面积,

记为P（2/1），类似有P（1/2），显然P（2/1）=P（1/2）=1一门（上2）。

当两总体靠的比较近时，即两总体的均值差异较小的时候，无论用何种判别方法，

错判的概率都比较大，这时的判别分析也是没有意义的。

因此只有当两总体的均值有显

著差异时，进行判别分析才有意义，为此，要对两总体的均值差异性进行检验，对此在下文中叙述。

（2）当SA=SB时

按照距离最近准则，类似地有：

XGa，如果DX,GaDX,GB，

XGb，如果DX,GaDX,GB，

X待判，如果DX,Ga二DX,Gb。

仍然用W（X）=d2X,GB-d2X,Ga

作为判别函数，此时的判别函数是X的二次函数。

（3）关于两组判别分析的检验

由于判别分析是假设两组样品是取自不同总体，如果两个总体的均值向量在统计上差异

不显著，则进行判别分析意义不大。

所以，两组判别分析的检验，实际就是要经验两个正态

总体的均值向量是否相等，为此，检验的统计量为：

给定检验水平，查F分布表使T■F.「「•，可得出F_.,再由样本值计算F,若

FF.,则否定原假设，认为两个总体的均值向量在统计上差异显著，否则两个总体的均

值向量在统计上差异不显著。

3、多个总体的距离判别法

类似两个总体的讨论推广到多个总体。

设有k个总体G…Gk

，相应抽出样品个数为n<

nk（n川'

…川'

nk）二n，每个样品观

测p个指标得观测数据如下,

总体Gk的样本数据为:

指标平均值为：

X（i）=（X|i,X2iXpi）,i=1,2…k。

（1）当Si「二Sk二S时

此时d2X,Gi二X-XjS「X—Xj,i=1,2k

1

判别函数为WijX二—[d2（X,Gj）-d2（X,Gj）]

2

相应的判别准则为:

’X^Gj,当Wj（X）nO时，对于一切j知

J寺判，若有一个Wj（X）=O

（2）当S/'

Sk不相等时

此时判别函数为

FF

WjiX=X-XjSj^X-Xj-X-XiSi」X-Xi

相应的判别准则为：

XGi，当Wjx0时，对于一切j=i

待判，若有一个Wjx=0

（二）费舍判别法

费舍判别法是1936年提出来的，该方法对总体分布未提出什么特定的要求。

1.基本思想

费舍判别法是基于统计上的费舍准则，即判别的结果应该使两组间区别最大，使每组内

部离散性最小。

在费舍准则意义下，确定线性判别函数：

y“Xiox?

CpXp

其中G,Q…Cp为待求的判别函数的系数。

判别函数的系数的确定原则是使两组间区别最大，使每组内部离散性最小。

有了判别函数后，对于一个新的样品，将p个指标的具体

数值代入判别式中求出y值，然后与判别临界值进行比较，并判别其应属于哪一组。

2•两组判别分析

（1）方法原理

设有两组总体GA和GB,相应抽出样品个数为m,n2（nin2）=n,每个样品观测p个指标得观测数据如下,

Xiia

x21（A）

X22a

总体GA的样本数据为：

一

Xn1iA

第1个总体的样本指标平均值为：

XiA,X2AXpA

XiiB

Xi2B

Xn22B

第2个总体的样本指标平均值为：

XiB,X2B

XpB

pp

根据判别函数，用yA二7CkXkA表示Ga组样品的重心，以yB二7CkXkB表

k£

k丄

示Gb组样品的重心。

则两组之间的离差用（y（A）-y（B））来表示，Ga、Gb内部的离差程

ninp

度分别用vya-yA$和vyiB-yB2来表示，其中yiAACkXikA；

n=1n£

k=1

P

yiBA為CkXkB。

km

根据费舍准则，要使判别的结果满足两组间区别最大，每组内部离散性最小。

则判别函

数的系数59…Cp应该能够使：

.yA-yB

ni门2

'

yiA-yAyiB-yB2

i=1iW

取得最大值。

（2）判别系数的导出

令Q=（y（A）-y（B）f

nin2

F=迟（yi（A）-y（A）f+£

（yi（B）-y（B）丫

n』nW

Q

I

根据数学分析求极值的原理，对上式两边取对数:

Lnl=LnQ-LnF

PP山

八'

C4[、XikA-XkAXilA—X1A

k4l4i4

n2

+'

XikB-XkB为B-X|B]

i4

n1

Ski八XikA-XkAxHA-X|A+、XikB-XkBx,B-X|B

则有

—二2*Ci-Skl

-CklA

k=1,2P

■-是一个常数因子，不依赖k,它对方程组的解只起到共同扩大［倍的作用，不影响它的解g,C2,…，Cp之间的比例关系，因此也不会影响判别函数，所以，取组:

p

、ClSkl~dkk=1,2p

lm

=d1

d2

1-S11C1S12C^S1pCp

S21C1S22C2S2pCp

SplCi■Sp2C2■'

SppCp

解此方程即得g,C2,…,Cp，进而得判别函数:

y=GX1C2X2CpXp

（3）判别准则

由判别函数，可得两组总体Ga和Gb各自样品的重心:

yA八沐A

yB八CkXkB

k4

对它们进行根据样本的容量进行加权得：

n』（A）+n2『（B）

yAB-

m+n2

Yab称为两组判别的综合指标。

据此可得判别准则为:

①如果yA■Yab，则对于给定的新样品花必,…Xp，若有

y二GXiC2X2CpXpYab

则将该样品判属于

Ga组，右y-yAB，则判其属于GB组；

②如果YB-Yab，则对于给定的新样品Xi,X2/Xp，若有

y=&

洛C2X2CpXpYab

则将该样品判属于Gb组，若y乞Yab，则判其属于Ga组。

（4）两组判别分析的检验

所以，两组判别分析的检验，实际就是要检验两个正态

F二J1__Q2__t2~Fp,nin2-p-1

ni门2-2p

S二SaSb，

给定检验水平，查F分布表使£

-，可得出F：

.,再由样本值计算F，若

FF-，则否定原假设，认为两个总体的均值向量在统计上差异显著，判别函数有效，可

用；

否则两个总体的均值向量在统计上差异不显著，判别函数无效不可用。

3、多组费舍判别分析

类似两总体的费舍判别法，下面给出多总体的费舍判别法。

设有k个总体G，■-Gk,抽取

样品数分别为门!

，压,…nk，令n=厲+门2+…+珈。

x；

）=（（广x；

）为第i个总体的第

个样品的观测向量。

假定所建立的判别函数为

y（x）二qx!

CpXp」cx

其中c（,Cp），x（Xi，，Xp）

记x为总的均值向量，贝yy=cx

在多总体情况下，Fisher准则就是要选取系数向量C,使

k

nKy（°

-y）2

■亠-

q^i

i=1

达到最大，其中是q人为的正的加权系数，它可以取为先验概率。

如果取qi=口-1,并将y⑴二ex"

））y=cx，匚i2=cs（i）c代入上式可化为:

cAc

E八qiS（i）

存在的必要条件，令1=0,利用对向量求导的公式:

据定义有，设A为n阶对称矩阵，E为n阶正定矩阵，若有Ac二，Be或A-，jBc=0，

则•称为A关于E矩阵的广义特征根，c是对应的特征向量）。

由于一般都要求加权协差

阵E是正定的，因此由代数知识可知，上式非零特征根个数m不超过min（k-1,p），又因

为E为非负定的，所以非零特征根必定为正根，记为

，2-<

m-0

于是可构造m个判别函数：

yi（x）二c⑴x1=1，,m

判别函数的判别能力与判别函数的个数。

由上述知，由于非零特征根，有m个，由此

对应有m个特征向量，即m个判别函数，为了选取有效的判别函数，对于每个判别函数必

须给出一个用以衡量判别能力的指标Pl，衡量判别函数判别能力的指标定义为:

mo个判别函数的判别能力定义为

如果mo达到某个人定的值（比如85%则就认为mo个判别函数就够了。

有了判别函数之后，如何对待判的样品进行分类？

Fisher判别法本身并未给出最合适的

分类法，在实际工作中可以选用下列分类法之一进行分类。

第一方法，当取m°

=i时（即只取一个判别函数），此时有两种可供选用的方法

1不加权法

丼/、一（D・（、—（j）

右y（x）-y=miny（x）-y

<

则判x•Gi

2加权法

将y⑴、y⑵…y（k）按大小次序排列，记为y⑴<

y（…_y（k）,相应的判别函数的标

准差排为匚⑴。

令di，厲=SM°

+S1）%*I=1,…k-1

（Fi卅）+坊（I））

则di,i+可作为Gj^Gj“之间的分界点。

如果x使得di丄iEy（x）di,刊，，则判

xGj。

jI

第二种方法，当取m。

・1时（即取多个判别函数），也有类似两种供选用的方法

①不加权法

（i）（I）一（i）

记y|cx1=1，,m。

；

I二1，,k

对待判样品x（x1,,xp）,计算

y（x）c⑴x

Di2八ji（x）-yP】’|

I=1

22

若DY=minDi，则判Gy

②加权法

考虑到每个判别函数的判别能力不同，记

Di2八

其中、是由Ac二，Ec求出的特征根。

若D2二minD2，则判x・G。

1J兰1i

（三）贝叶斯判别法

设有m个总体，G,G2…Gm，它们的先验概率分别为qi,q2…qm，密度函数为

£

X,f2X…fmX（在离散情形是概率函数），在观测到一个样品X的情况下，可用

贝叶斯公式计算它来自第g个总体的后验概率：

pgx]=nqigfgX,g72,m

迟qgfg（X）

并且当

Phx=maxPg.x

时，判定X来自第h个总体。

另外，有时为了合理考虑错判所带来的损失，还使用错判损失最小的概念确定判别函数，

这时，把X错判给第h个总体的平均损失定义为：

Ehx严fgxLhg

g"

qifix

i=1

其中Lhg称为损失函数。

它表示本来是第g个总体的样品错判为第h个总体的损失。

于是建立判别准则为，如果

E（h/x卜対监丘❻加）

则，判定X来自第h个总体。

显然考虑损失函数更为合理，但是由于实际应用中，由于Lhg不容易确定，经常在

数学模型中假定各种错判的损失皆相等，这样，寻找h使后验概率最大实际上等价于使错判

损失最小。

hh

phxjmax=Ehxjmin

根据上述思想，在假定协方差矩阵相等的条件下，即可以导出判别函数。

2.多元正态总体的Bayes判别法

在实际问题中遇到的许多总体往往服从正态分布，下面给出p元正态总体的Bayes判别

法，以及判别函数的导出。

（1）待判样品的先验概率和密度函数

使用Bayes准则进行分析，首先需要知道待判总体的先验概率qg和密度函数fg（x）（如

果是离散情形则是概率函数）。

ng

对于先验概率，一般可用样品频率来代替，即令qg-，其中ng为用于建立判别函

n

数的已知分类数据中来自第g总体样品的数目，且m•n2•nk=n,或者干脆令先验

概率相等，即qg，这时可以认为先验概率不起作用。

gk

对于第g总体的密度函数，设p元正态分布密度函数为：

fg（x）=（2兀）（g）乜‘exp』-*（x-『g））（g）（x-屮）

式中•（（⑴和、'

（①分别是第g总体的均值向量（p维）和协差阵（p阶）。

把fg（x）代入P（gx）的表达式中，因为我们只关心寻找使P（gx）最大的g，而

分式中的分母不论g为何值都是常数，故可改令

g

qgfg（x）》max

对qgfg（x）取对数并去掉与g无关的项，记为,

则问题可化为

Z（gx）》max

Z（g.x）中含有k个总体的协方差阵（逆阵及行列式值），而且对于x还是二次函数,

形判别函数）；

十1*

y（g/x）=In_丄汕）E」P（g）+x近」P（g）

’2

y（g/x）Tmax

上式判别函数也可以写成多项式形式：

y（gx）Inqg-C0g）'

C；

g）Xi

i4

其中，用样本资料这里为,

I寸寸ij（g）（g）

sxx,

2i=1j=1

总样本总协差S（Sij）pp为总协差阵匕的估计,

S’=（sij）'

pp为总协差阵S的逆矩阵。

（3）计算后验概率

进行计算分类时，主要根据判别式y（gx）的大小，而它不是后验概率P（gx），

但是有了y（gx）之后，就可以根据下式算出后验概率P（gx）:

p（g.x）二

exp：

y（gx）

kj,

二exp'

y（ix）

其中.■:

（x）是In（qgfg（x））中与g无关的部分。

所以

qgfg（x）

qi（（x）

exply（gx）二（x）

~~k

exp'

y（ix）l（x）

exp'

y（gx）expt（x）

二—■■

exp^y（ix）exp-=（x）

exp:

由上式知使y为最大的h，其P（hx）必为最大，因此我们只须把样品x代入判别式

中：

分别计算y（g/x），g=1,…，k。

若y（h「x）二max）（gx），则把样品x归为第h总体。

（4）辅助性检验

为了检验p个变量是否有能力区分这m个组，还需要用广义的马哈拉诺比斯D2统计

量来进行检验。

马氏统计量为：

ppm

D2=迟迟迟m衬区

（1）—剂凤）—xj）

idj4Id

统计量D2在正态分布各组均值、协方差阵全部相同的假定下，服从pm-1个自由度

的2分布。

所以，当统计量D2值大于查表得的临界值时，可以断定p个变量有能力区分这m个组。

贝叶斯方法一般多用于多组判别分析，贝叶斯判别方法的数学模型所要求的条件严格，它要求各组变量必须服从多元正态分布，各组的协方差矩阵相等，各组的均值向量有显著差

异。

而费舍判别法主要要求各组均值向量有显著差异即可。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 判别分析基本原理

冰点文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：判别分析的基本原理Word格式.docx
链接地址：https://www.bingdoc.com/p-7761208.html

判别分析的基本原理Word格式.docx

热门标签