模式识别试题及总结Word格式.docx
- 文档编号:7764678
- 上传时间:2023-05-09
- 格式:DOCX
- 页数:32
- 大小:132.52KB
模式识别试题及总结Word格式.docx
《模式识别试题及总结Word格式.docx》由会员分享,可在线阅读,更多相关《模式识别试题及总结Word格式.docx(32页珍藏版)》请在冰点文库上搜索。
正(负)半空间中;
绝对值正比于样本点到判别界面的距离。
)。
12、感知器算法1。
(1)只适用于线性可分的情况;
(2)线性可分、不可分都适用。
13、积累势函数法较之于H-K算法的优点是(该方法可用于非线性可分情况(也可用于线性可分情况));
K(x}=H«
kK(x,Xk)
位势函数K(x,xk)与积累位势函数K(x)的关系为(Xk.x)。
14、在统计模式分类问题中,聂曼-皮尔逊判决准则主要用于(某一种判决错误较另一种判决错误更
为重要)情况;
最小最大判决准则主要用于(先验概率未知的)情况。
15、“特征个数越多越有利于分类”这种说法正确吗?
(错误)。
特征选择的主要目的是(从n个特征
中选出最有利于分类的的m个特征(m<
r),以降低特征维数)。
一般在(可分性判据对特征个数
具有单调性)和(Cnm>
>
n)的条件下,可以使用分支定界法以减少计算量。
16、散度Jij越大,说明国i类模式与⑸类模式的分布(差别越大);
当oi类模式与⑹类模式的分布相同时,Jij=(0)。
17、已知有限状态自动机Af=「,Q,、,qO,F),‘={0,1};
Q={qO,q1};
,■:
、(qO,0)=q1,(q0,
1)=q1,(q1,0)=q0,、(q1,1)=q0;
q0=q0;
F={q0}。
现有输入字符串:
(a)00011101011,(b)1100110011,
(c)101100111000,(d)0010011,试问,用Af对上述字符串进行分类的结果为(31:
{a,d};
3
2:
{b,c})。
18、影响聚类算法结果的主要因素有(—②③④_)。
①已知类别的样本质量;
②分类准则;
③特征选取;
④模式相似性测度。
19、模式识别中,马式距离较之于欧式距离的优点是(_③④_)。
①平移不变性;
②旋转不变性;
③尺度不变性;
④考虑了模式的分布。
20、基于二次准则函数的H-K算法较之于感知器算法的优点是(—①③_)。
①可以判别问题是否线性可分;
②其解完全适用于非线性可分的情况;
③其解的适应性更好;
④计算量小。
21、影响基本C均值算法的主要因素有(④①②)。
①样本输入顺序;
②模式相似性测度;
③聚类准则;
④初始类心的选取。
22、位势函数法的积累势函数K(x)的作用相当于Bayes判决中的(—②④_)。
①先验概率;
②后验概率;
③类概率密度;
④类概率密度与先验概率的乘积。
23、在统计模式分类问题中,当先验概率未知时,可以使用(—②④_)。
①最小损失准则;
②最小最大损失准则;
③最小误判概率准则;
④N-P判决。
24、在(—①③—)情况下,用分支定界法做特征选择计算量相对较少。
①Gd>
n,(n为原特征个数,d为要选出的特征个数);
②样本较多;
③选用的可分性判据J对特征数目单调不减;
④选用的可分性判据J具有可加性。
25、散度Jd是根据(③)构造的可分性判据。
④信息熵;
⑤几何距离。
26、似然函数的概型已知且为单峰,则可用(—①②③④⑤_)估计该似然函数。
①矩估计;
②最大似然估计;
③Bayes估计;
④Bayes学习;
⑤Parzen窗法。
27、Kn近邻元法较之Parzen窗法的优点是(一②_)。
①所需样本数较少;
②稳定性较好;
③分辨率较高;
④连续性较好。
28、从分类的角度讲,用DKLT做特征提取主要利用了DKLT的性质:
(_①③_)。
③使变换后的矢
②③)。
①变换产生的新分量正交或不相关;
②以部分新的分量表示原矢量均方误差最小;
量能量更趋集中;
29、一般,剪辑k-NN最近邻方法在(—①_)的情况下效果较好。
①样本数较大;
②样本数较小;
③样本呈团状分布;
④样本呈链状分布。
30、如果以特征向量的相关系数作为模式相似性测度,则影响聚类算法结果的主要因素有
①已知类别样本质量;
④量纲。
二、(15分)简答及证明题
(1)影响聚类结果的主要因素有那些?
(2)证明马氏距离是平移不变的、非奇异线性变换不变的。
答:
(1)分类准则,模式相似性测度,特征量的选择,量纲。
(2)证明:
(2分)
(1分)
tl2(耳禺)=(£
-Xy)厂1(£
-右)
1池
卩二一》凭_歛驚_対
设,有非奇异线性变换:
]m
=R苕(町展)隔-広)'
1用
1m
=七吉£
区-交)厲-5)W="
沁
冷厲莎戶仇-丹y罗说-号)
二隅-闿席㈣-呵
二化引・加7%区-引
=区_亏)虫3忌4尸卫&
一右)
=(呂_f乂“右I/」/(鬲-鬲)
=(石-刃yk(爲一刃)
-;
(—:
[)(4分)
三、(8分)说明线性判别函数的正负和数值大小在分类中的意义并证明之。
(1)(4分)必初的绝对值0任丿正比于亍到超平面d(初=0的距离山
平面ji的方程可以写成
式中网二(w;
+w;
+…+垃严。
于是HI是平面7!
的单位法矢量,上式可写成
十一w1
设:
是平面r中的任一点,..是特征空间r中任一点,点」到平面二的距离为差矢量("
)在.
上的投影的绝对值,即
梯二码二
必二龙-动1二獻-莎"
囱岡广
陟+%』1心
(1-1)
上式中利用了/在平面||中,故满足方程
式(1-1)的分子为判别函数绝对值,
上式表明,的值
正比于I到超平面■'
|-11的距离,
一个特征矢量代入判别函数后所得值的绝对值越大表明该特征点距判别界面越远。
(2)(4分)的正(负)反映「:
在超平面d(AO的正(负)侧
两矢量:
;
和(右肉的数积为
0;
反之,当.
广—⑴”一”“心‘一,(2分)
显然,当■'
'
和夹角小于.一「时,即.「在.指向的那个半空间中,
和代一勿夹角大于90”时,即亍在分背向的那个半空间中,岡"
狀.P)丿<
0。
由于%,故
ng和'
"
宀卞叩同号。
所以,当】在「指向的半空间中时,】」一ri「;
当】在〔:
背向的半空间中,汕:
口⑴点‘■。
判别函数值的正负表示出特征点位于哪个半空间中,或者换句话说,表示特征点位于界面的哪一侧。
五、(12分,每问4分)在目标识别中,假定有农田和装甲车两种类型,类型.1和类型.2分别代表农
田和装甲车,它们的先验概率分别为0.8和0.2,损失函数如表1所示。
现在做了三次试验,获得三个
样本的类概率密度如下:
J'
:
0.3,0.1,0.6
p(x/叭):
0.7,0.8,0.3
(1)试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型;
(2)假定只考虑前两种判决,试用贝叶斯最小风险准则判决三个样本各属于哪一类;
(3)把拒绝判决考虑在内,重新考核三次试验的结果。
表1
判决
损失
类型
X
叫
®
2
«
1
4
5
P®
)-3刊如离)_3
解:
由题可知,
险丨如_]P(西丨◎)―?
_|;
_1一,_|■:
.-1;
(1)(4分)根据贝叶斯最小误判概率准则知:
户(罚|昭)—P(Qj户区|遇)*(购)P(再|硝)*(曲)
■-1■■.-匕,则可以任判;
•「_1一人,则判为_:
<
1,则判为I】;
巩码)(血-卷)_0死-1)_4
W—―H二
(2)(4分)由题可知:
尸⑷)(血「血)0-7(4-1)7
P(可⑷)J
则,判为匚;
户(巧1码)吒4
,判为’1;
尺也1码)/
_,判为;
(3)(4分)对于两类问题,对于样本:
,假设亠已知,有
R(対I兀)=久(碍I砒)F(码Ix)+2(勺|屿)H屿I兀)=
_2(碍|州W|码)日昭)+2(丐丨乌)戸(兀|码)P(叫)
=丽
则对于第一个样本,
即..5x0.21$,、4x0.21小.、2x0,21
RgIx)-少、-曲%IJ)一p、,,虫QIz)-..
,则拒判;
r協ix铁曲岂ir二舉卫(觀沪豹
二-」匸'
219
0.51
,拒判。
1.监督学习与非监督学习的区另u:
监督学习方法用来对数据实现分类,分类规则通过训练获得。
该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。
非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行
分析,如聚类,确定其分布的主分量等。
(实例:
道路图)就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,
进行分类器设计,然后用所设计的分类器对道路图像进行分割。
使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。
2.动态聚类是指对当前聚类通过迭代运算改善聚类;
分级聚类则是将样本个体,按相似度标准合并,随着相似度要求的降低实现合并。
3.线性分类器三种最优准则:
Fisher准则:
根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。
该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。
感知准则函数:
准则函数以使错分类样本到分界面距离之和最小为原则。
其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
支持向量机:
基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本岀
发点是使期望泛化风险尽可能小。
一、试问模式”与模式类”的含义。
如果一位姓王的先生是位老年人,试问王先生”和老头”谁是模式,谁是模式
类?
在模式识别学科中,就模式”与模式类”而言,模式类是一类事物的代表,概念或典型,而模式”
则是某一事物的具体体现,如老头”是模式类,而王先生则是模式”是老头”的具体化。
二、试说明Mahalanobis距离平方的定义,到某点的Mahalanobis距离平方为常数的轨迹的几何意义,它与欧氏距离的区别与联系。
Mahalanobis距离的平方定义为:
rJ(xlu)=(x-u)r2"
1(x-u)
其中x,u为两个数据,—是一个正定对称矩阵(一般为协方差矩阵)。
根据定义,距某一点的Mahalanobis距离相等点的轨迹是超椭球,如果是单位矩阵厶贝UMahalanobis距离就是通常的欧氏距离。
三、试说明用监督学习与非监督学习两种方法对道路图像中道路区域的划分的基本做法,以说明这两种学习方法的定义与它们间的区别。
该训练集由带分类号的数据集组成,因此监督学习方法的训练过程是离线的。
非监督学习方法不需要单独的离线训练过程,也没有带分类号(标号)的训练数据集,一般用来对数据集进行分析,如聚类,确定其分布的主分量等。
就道路图像的分割而言,监督学习方法则先在训练用图像中获取道路象素与非道路象素集,进行分类器设计,然后用所设计的分类器对道路图像进行分割。
使用非监督学习方法,则依据道路路面象素与非道路象素之间的聚类分析进行聚类运算,以实现道路图像的分割。
四、试述动态聚类与分级聚类这两种方法的原理与不同。
动态聚类是指对当前聚类通过迭代运算改善聚类;
分级聚类则是将样本个体,按相似度标准合并,随
着相似度要求的降低实现合并
状态序列表示成
•:
:
。
如果计算在给定0条件下岀现S的概率,试问此概率是何种概率。
如果
从观察序列来估计状态序列的最大似然估计,这与Bayes决策中基于最小错误率的决策有什么关系。
在给定观察序列-条件下分析它由某个状态序列S产生的概率似后验概率,写成
P(S|O),而通过0求对状态序列的最大似然估计,与贝叶斯决策的最小错误率决策相当。
1/21
六、
已知一组数据的协方差矩阵为
1/2
1.
协方差矩阵中各元素的含义。
2.
求该数组的两个主分量。
3.
主分量分析或称K-L变换,
它的最佳准则是什么?
4.
为什么说经主分量分析后,消除了各分量之间的相关性。
答:
T1/2
协方差矩阵为
1)对角元素是各分量的方差,非对角元素是各分量之间的协方差。
2)主分量,通过求协方差矩阵的特征值,用
(11
X-1
-1/2
相应的特征向量为:
入二,对应特征向量为
X=-
2,对应
这两个特征向量即为主分量。
3)K-L变换的最佳准则为:
对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小。
4)在经主分量分解后,协方差矩阵成为对角矩阵,因而各主分量间相关消除。
七、试说明以下问题求解是基于监督学习或是非监督学习:
1.求数据集的主分量
2.汉字识别
3.自组织特征映射
4.CT图像的分割
1、求数据集的主分量是非监督学习方法;
2、汉字识别对待识别字符加上相应类别号一一有监督学习方法;
3、自组织特征映射一一将高维数组按保留近似度向低维映射一一非监督学习;
4、CT图像分割一一按数据自然分布聚类一一非监督学习方法;
八、试列举线性分类器中最著名的三种最佳准则以及它们各自的原理。
线性分类器三种最优准则:
根据两类样本一般类内密集,类间分离的特点,寻找线性分类器最佳的法线向量方向,使两
类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开
其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基
本出发点是使期望泛化风险尽可能小。
九、在一两维特征空间,两类决策域由两条直线H1和H2分界,
其中[匚:
二1:
II
而包含H1与H2的锐角部分为第一类,其余为第二类。
试求:
1.用一双层感知器构造该分类器
2•用凹函数的并构造该分类器
1)H1与H2将空间划分成四个部分,按使H1与H2大于零与小于零表示成四个区域,而第一类属于(-
TJ-Y-+?
=0丄1
+)区域,为方便起见,令..-"
则第一类在(++)区域。
用双层感知器,神经元用—一域
值,则在第一类样本输入时,两隐层结点的输出均为+1,其余则分别为(H■—),(),(—+),故可按图设
置域值。
-0.5
X1X2
十、
2)用凹函数的并表示:
厂或表示成严注二m如附h,则「一,
设有两类正态分布的样本基于最小错误率的贝叶斯决策分界面,分别为
X2=0,以及Xi=3,其中两类的协方
差矩阵先验概率相等,并且有
(V)
设待求
如=
」,待求
由于.1--,先验概率相等。
则基于最小错误率的Bayes决策规则,在两类决策面分界面上的样本
..._...
(1)
X应满足
-1
其中按题意
(注:
为方便起见,在下面计算中先去掉系数
4/3)。
按题意分界面由x仁3及x2=0两条直线构成,则分界面方程为
二宀Al:
-二―
(2)
对
(1)式进行分解有
XT石収「2诩琴X+p匡%
二XT;
吹-2“茫抠+必石尢
XT晤功X-2酣罚-戸宓?
)X+
得-"
I-.J■'
■■.■'
.(3)
1丿2
由(3)式第一项得
=XiQ-a)+2址声,1/2-b)+Xj(l-c)
将(4)式与
(2)式对比可知
a=1,c=1
又由c=1与」-,得b2=1/4,b有两种可能,即b=1/2或b=-1/2,
b=-1/2
如果b=1/2,则表明.1--,此时分界面方程应为线性,与题意不符,只有
则(4)式为:
2X^2(5)
将相应结果带入(3)式第二项有
=2
(-12)
72
“3、r11.
(°
•㊁)-如㊁口21十#2』
](:
)
(6)
则结合(5)
(2)应有
r1
-1/21
Sa=
得
L
J
3
九、证明在工正定或半正定时,Mahalanobis距离r符合距离定义的三个条件,即
(1)r(a,b)=r(b,a)
(2)当且仅当a=b时,有r(a,b)=0
(3)r(a,c)<
r(a,b)+r(b,c)
证明:
(1)根据定义'
'
■'
-'
由于工为对称阵,故工可以分解为
,且所有
特征值大于等于零。
可以认为
=(a-by工J(a~b)=
(a-/DrDP(a-b)=(DP仗-幼TDP(a-Q
这就变为了传统意义上的欧氏距离,可以由欧氏距离满足的性质直接证明本命题。
十、对一副道路图像,希望把道路部分划分出来,可以采用以下两种方法:
1•在该图像中分别在道路部分与非道路部分画出一个窗口,把在这两个窗口中的象素数据作为训练集,用Fisher准则方法求得分类器参数,再用该分类器对整幅图进行分类。
2•将整幅图的每个象素的属性记录在一张数据表中,然后用某种方法将这些数据按它们的自然分布状况划分成两类。
因此每个象素就分别得到相应的类别号,从而实现了道路图像的分割。
试问以上两种方法哪一种是监督学习,哪个是非监督学习?
答:
第一种方法中标记了两类样本的标号,需要人手工干预训练过程,属于监督学习方法;
第二种方法只是依照数据的自然分布,把它们划分成两类,属于非监督学习方法。
十、已知有两类数据,分别为
(L0).(2,0),(1,1)
Dglb0)i(Oi1)*(m1j1)
该组数据的类内及类间离散矩阵:
及」
第一类的均值向量为
-22ma=(-,-)
r6-51
C一1
r2r
9
-56
f6一一
12
LJ
(12
-2
-21
12
111(36
-6
十二、设一个二维空间中的两类样本服从正态分布,其参数分别为:
F1O1
1=(1,0)\艺1=
01
IJ
Ina,z3=^02
先验概率:
试证明:
其基于最小错误率的贝叶斯决策分界面方程为一圆,并求其方程
先验概率相等条件下,基于最小错误率贝叶斯决策的分界面上两类条件概率密度函数相等。
因此有:
冷3-屿畑厂帕冷ln|厶F
冷(S
君3-旳)-扣|纺|
(『1)2+£
A扣+产*;
讣4
化简为肚亠*衆,是一个圆的方程。
十三、试分析五种常用决策规则思想方法的异同
答、五种常用决策是:
1.基于最小错误率的贝叶斯决策,利用概率论中的贝叶斯公式,得出使得错误率最小
的分类规则。
2.基于最小风险的贝叶斯决策,引入了损失函数,得出使决策风险最小的分类。
当在0-1损失函数条件下,基于最小风险的贝叶斯决策变成基于最小错误率的贝叶斯决
3.在限定一类错误率条件下使另一类错误率最小的两类别决策。
4.最大最小决策:
类先验概率未知,考察先验概率变化对错误率的影响,找出使最小贝叶斯奉献最大的先验概率,以这种最坏情况设计分类器。
5.序贯分类方法,除了考虑分类造成的损失外,还考虑特征获取造成的代价,先用一部分特征分类,然后逐步加入性特征以减少分类损失,同时平衡总的损失,以求得最有效益。
十四、假设在某个地区细胞识别中正常(wi)和异常(W2)两类先验概率分别为P(wi)=0.9,P(W2)=0.1,现有一待识别的细胞,其观察值为X,从类条件概率密度分布曲线上查
得P(x;
w1)=0.2,P(xw2)=0.4,并且已知5=0,,12=6,,21=1,,22=0
试对该细胞X用一下两种方法进行分类:
1.基于最小错误率的贝叶斯决策;
2.基于最小风险的贝叶斯决策;
请分析两种结果的异同及原因。
利用贝叶斯公式•分别计算岀3及叫的后验槪率*
尸仙⑺=•氢0.2XO,9+0.4XOH*°
*1*
P(气—扒m<
r)=Q*182
根据贝叶斯决策规则式(花2八有
Pgjr)=0*818>
P<
^lx)=0a82
所以合理的决聂是把耳归类于正常状态°
牌:
已知条
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别 试题 总结