图像理解识别.docx
- 文档编号:486777
- 上传时间:2023-04-29
- 格式:DOCX
- 页数:9
- 大小:43.06KB
图像理解识别.docx
《图像理解识别.docx》由会员分享,可在线阅读,更多相关《图像理解识别.docx(9页珍藏版)》请在冰点文库上搜索。
图像理解识别
图像理解-识别
图像理解与模式识别
1.模式识别的基本概念以及模式识别在图像识别中的位置
什么是模式呢?
广义地说,存在于时间和空间中可观察的事物,如果我们可以区别它们是否相同或是否相似,都可以称之为模式。
模式识别就是根据观察到的事物的模式对事物进行分类的过程。
在图像识别技术中,模式识别占有核心的地位。
所以的图像处理技术都是为了更好地进行模式识别做准备。
模式识别是图像识别的实质性阶段。
有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法,与此相应的模式识别系统都由两个过程所组成,即设计和实现。
设计是指用一定数量的样本(叫做训练集或学习集)进行分类器的设计。
实现是指用所设计的分类器对待识别的样本进行分类决策。
图6-2模式识别系统的基本构成
模式识别系统(如图6-2)中,信息获取和预处理部分大致可以与图像的获取与处理对应。
一般情况下,模式识别技术主要包含“特征提取和选择”和“分类器的设计”。
近几十年来,模式识别技术发展很快。
然而,发展较成熟、应用较广泛的主要是统计模式识别技术。
本节将主要介绍统计模式识别技术主要内容,并对其它模式识别技术如结构模式识别、模糊模式识别方法、神经网络识别方法加以概述。
2.统计模式识别
从一个广义的角度看,模式识别可以看成是一种机器学习的过程。
按照机器学习过程的性质,可以将模式识别方法分成有监督的模式识别方法和非监督的模式识别方法,后者又称为聚类分析方法。
这两种方法在图像识别中都有广泛的应用。
(1)有监督的模式识别方法
从识别技术的基本思路和方法看,有监督的模式识别可以分成两类:
基于模型的方法和直接分类的方法。
基于模型的方法的基础是贝叶斯(Bayes)决策理论方法,它对模式分析和分类器的设计有着实际的指导意义,是统计模式识别中的一个基本方法,用这个方法进行分类时要求:
①各类别总体的概率分布(即所谓的先验概率和类条件概率)是已知的; ②要决策分类的类别数是一定的。
假设要研究的分类问题有c个类别,各类别状态用ωi来表示,i=1,2,…,c;对应于各个类别ωi出现的先验概率P(ωi)以及类条件概率密度函数p(x|ωi)是已知的。
如果在特征空间已观察到某一向量x,那么应该把x分到那一类中去才最合理呢?
最基本的想法是根据观察到的信息,选择适当的分类策略,使分类可能出现的错误最少,即:
如果对于任意j≠i,都有P(ωi|x)>P(ωj|x),则将x归入类ωi这就是“最小错误率的贝叶斯决策”。
一个例子是国际体育联合会对运动员兴奋剂检查的策略。
由于对服用兴奋剂的运动员发生漏检,最多只是丧失某一次比赛的结果的公平;而错怪没有服用兴奋剂的运动员有可能毁掉这个运动员的整个运动生涯。
所以,当出现疑问时,国际体育联合会的原则是:
宁可使一千人漏网,也不能错怪一个好人。
类似的思想体现在模式识别中,便是“基于最小风险的贝叶斯决策”。
设λ(αi|ωj)是将ωj类中的样本归入αi类所带来的损失,则当观察到x时,将x归入αi类的风险可以定义为:
。
最小风险的贝叶斯决策就是把x归入使最小的类中,即:
如果对于任意j≠i,都有R(αi|x) 基于模型的识别技术中,关键就是要估计概率密度函数。 其方法可分为参数估计和非参数估计两类。 在许多实际问题中,由于样本特征空间的类条件概率密度的形式常常很难确定,利用Parzen窗等非参数方法估计分布又往往需要大量样本,而且随着特征空间维数的增加所需样本数急剧增加。 由此,在实际问题中,我们往往不去恢复类条件概率密度,而是利用样本集直接设计分类器。 具体说就是首先给定某个判别函数类,然后利用样本集确定出判别函数中的未知参数。 这类方法就是有监督的模式识别方法中的另一类重要的方法: 直接分类方法。 这类方法有3个要素: 分类函数的类型(线性还是非线性)、分类目标函数、优化算法。 下面分别介绍线性判别函数法和非线性判别函数法。 线性判别函数法利用一类较为简单的判别函数。 它首先假定判别函数g(x)是x的线性函数,即g(x)=wTx十w0,对于c类问题,可以定义c个判别函数。 这里关键的问题是如何利用样本集求得w和w0。 不同的实际情况,往往提出不同的设计要求。 这些设计要求,在数学上一般表现为特定的函数形式,我们称之为准则函数。 “尽可能好”的结果相应于准则函数取最优值。 这实际上是将分类器设计问题转化为求准则函数极值的问题了,这样就可以利用最优化技术解决模式识别问题。 线性判别函数法的代表有: Fisher线性判别法、感知准则函数法。 ③Fisher线性判别法 应用统计方法解决模式识别问题时,一再碰到的问题之一是维数问题。 在低维空间里解析上或计算上行得通的方法,在高维空间里往往行不通。 因此,降低维数有时就成为处理实际问题的关键。 Fisher准则函数的基本思想是,构造评价函数,使得当评价函数最优时,被分类的类别之间的距离尽可能大,同时各类内部样本间距离尽可能小。 下式就是Fisher准则函数: 式中分子代表类间距离;分子代表类内离散度。 分类器的设计过程就是通过已知样本求得w和w0使JF(w)取得最大值。 ④感知准则函数法: 设有一组样本y1,y2,···,yn,其中yn是规范化增广样本向量,我们的目的是找一个解向量a*,使得 显然,对于线性可分情况,问题才有解: 为此这里首先考虑处理线性可分问题的算法。 现在先构造这样一个准则函数 式中求和是对所有被权向量a错分的样本进行的。 当y被错分时就有: -aTy≥0,因此,上式中的,JP(a)总是大于等于0。 当且仅当错分集为空集时.JP(a)=minJP(a)=0,这时将不存在错分样本,“就是我们要寻找的解向量”。 这一准则函数是20世纪50年代由Rosenblatt提出来,试图用于脑模型感知器上的,故一般称为感知准则函数。 ⑤近邻法 最初的近邻法是由Cover和Hart于1968年提出的。 由于对该方法在理论上进行了深入分析,直至现在仍是模式识别非参数法中最重要的方法之一。 最简单的近邻决策规则是最近邻决策规则。 所谓最近邻决策,是寻找与待分类样本最近的已知样本,认为待分类样本与后者同属一类。 最近邻法的一个显然的推广是k近邻法。 从字义上看,这个方法就是取未知样本x的k个近邻,看这k个近邻中多数属于哪一类,就把x归为哪一类。 近邻法的一个缺点是计算量大。 解决的途径之一是采用快速算法,称之为快速搜索近邻法。 其基本考虑是将样本分级分成一些不相交的子集,并在子集的基础上进行搜索。 该算法对最近邻法和近邻法都适用。 (2)非监督的模式识别方法 在很多实际应用中由于缺少形成模式类过程的知识.或者由于实际工作中的困难(例如卫星遥感照片上各像元的分类问题),我们往往只能用没有类别标签的样本集进行工作。 这就是通常所说的非监督学习方法。 一般来说非监督学习方法可以分成两大类,即基于概率密度函数估计的直接方法和基于样本间相似性度量的间接聚类方法。 不论是哪一种方法,在把样本集划分为若干个子集(类别)后,我们或者直接用它解决分类问题.或者把它作为训练样本集进行分类器设计。 单峰子集(类)的分离方法: 在没有任何类条件概率分布的先验知识情况下,我们只能把特征空间划分为若干个区域Si,i=l,2,…,c,在每个区域中的混合密度应该是单峰的,如图6-3所示。 我们把这些区域叫作单峰区域。 假定每一个单峰区域Si和一个类别ωi相对应。 有各种算法来实现这些单峰区域的划分。 图6-3单峰子集分离示意图 在应用中,单峰子集(类)的分离方法,需要估计概率密度函数。 为了避免估计概率密度函数的困难,我们可以在一定条件下,按照样本间的相似性把集合划分成若干个子集,划分的结果应使某种表示聚类质量的准则函数为最大。 当用距离来表示两个样本间的相似度时,这样做的结果就把特征空间划分成若干个区域,每一个区域相当于一个类别。 一些常用的距离度量都可以作为这种相似件度量,在工程中,之所以常常用距离来表示样本间的相似度,是因为从经验上看,凡是同一类的样本,其特征向量应该是互相靠近的,而不同类的样本其特征向量之间的距离要大得多。 这种方法虽然看起来似乎和上述的基于混合概率密度函数估计的聚类分离方法没有联系,但是由于概率密度的估计也是在样本间距离的基础上进行的,距离很近的两个特征向量经常是属于同一单峰子集。 所以两种方法在概念上依然是互相关联的。 常用的对数据集进行聚类的方法有两种,迭代的动态聚类算法和非迭代的分级聚类算法。 动态聚类方法是一种普遍采用的方法,它具有以下3个要点: ①选定某种距离度量作为样本间的相似性度量;②确定某个评价聚类结果质量的准则函数;③约定某个初始分类,然后用迭代算法找出使准则函数取极值的最好聚类结果。 在非监督问题中,我们没有已知类别的样本集,甚至可能不知道类别数,可以利用的信息量大大减少了。 所以,与监督模式识别相比,非监督模式识别问题中存在更大的不确定性。 因此,在实际应用中,还要注意设法有效利用应用领域的专门知识,以弥补信息的不足。 最终所得聚类的实际含义也往往只有依靠有关知识来解释和确定。 3.结构模式识别: 在一些图像识别的问题中,往往需要了解图像的结构信息。 识别的目的不仅要能够把图像指定到一个特定类别(把它分类),而且还要描述图像的形态。 这时用语言结构法来识别图像就很有吸引力。 句法方法使我们能够用一小组简单的模式基元和文法规则来描述一大组复杂的图像模式。 例如,考虑图6-4所示的场景。 它是有一些物体和背景组成。 物体中又包含一个三角体和一个长方体,三角体和长方体又由一些面组成……这样,我们可以逐级地描写这种结构(见图6-5)。 图6-4一个场景的示意图图6-5场景结构的分析 显然,这种逐级描写的结构方法与语言学中的句子分析有类似之处。 取最简单的基元,用一定的规则构成较为复杂的子图像,再根据一定的规律,从子图像逐步构成一幅场景。 这就是句法模式识别的由来,其中基元之间的连接规则称为文法。 用基元及其文法进行描述图像结构的语言称为图像描述语言。 应当注意,在选取基元时,如果选择得非常简单,其优点是容易识别基元,但是不易用紧凑的文法来描写图像;反之,如果基元选得比较复杂,虽然易于用紧凑的文法来描写图像,但基元本身却不容易识别。 这二者往往是矛盾的,实际应用中需要兼顾折中。 有了基元后,必须对各种训练样本构造文法,以形成语言,并用以描述图像。 一般根据先验知识进行人工编制。 当编制出来几条文法规则后,再用已知结构信息的图像来进行句子分析,如果能够分析出正确的结构,则文法可以采用;否则修改文法,直到能正确分析。 对一种文法来说,如果规则很多,功能就强,然而运行代价也大;反之,如果功能弱,则很多图像无法描述。 4.模糊模式识别方法 1965年,Zadeh提出了他著名的模糊集理论,从此创建了一个新的学科——模糊数学。 模糊集理论是对传统集合理论的一种推广,在传统集合理论中,一个元素或者同于一个集合,或者不属于一个集合;而对于模糊集来说,每一个元素都是以一定的程度属于某个集合,也可以同时以不同的程度属于几个集合。 对人们现实生活中大量使用的一些含义确定,但又不准确的语言表述。 比如“今天天气很热”、“车速过高,需要适当踩刹车”等,模糊数学能够较好地表达。 因此,模糊数学被很多人认为是解决很多人工智能问题,尤其是常识性问题的最合适的数学工具。 关于模糊数学有几种不同的名称: 一种叫法是模糊集,它是相对于经典的集合理论而言的;一种是模糊逻辑,相对于传统的“是或者不是”的二值逻辑而言;模糊数学则是一种更广泛的叫法,更倾向于指从数学角度对模糊集和模糊逻辑的研究;从应用的角度,很多人更习惯于用模糊系统的叫法,用来指采用了模糊数学的思想和理论的方法或系统,而其中采用的一些技术往往称作模糊技术和模糊方法。 这些名词本身也具有很大的模糊性,但其实质都是同样的。 将模糊技术应用于各个不同的领域,就产生了一些新的学科分支,比如和人工神经网络相结合,就产生了所谓模糊神经网络;应用到自动控制中,就产生了模糊控制技术和系统;应用到模式识别领域来,自然就是模糊模式识别。 从20世纪80年代以来,在很多传统的控制问题中,模糊控制技术的应用取得了很好的效果。 尤其是一些国家在诸如地铁的模糊控制系统,洗衣机、电饭锅等的模糊控制等方面取得了成功的应用后,人们再次掀起了研究各种模糊技术的热潮。 模式识别从一开始就是模糊技术应用研究的一个活跃领域。 一方面,人们针对一些模糊式识别问题设计了相应的模糊模式识别系统;另一方面,对传统模式识别中的一些方法,人们用模糊数学对它们进行了很多改进。 这些研究逐渐形成了模糊模式识别这一新的学科分支。 模糊集理论是为了表达人的自然语言和推理中的不明确的方面而提出的,因此其应用中往往不可避免地带有一定的主观因素,比如隶属度函数的选取、模糊推理规则等。 也正因为如此,它能够比较好地把人们的先验知识和常识加到一个智能系统中。 虽然有人试图用传统概率论来描述模糊理论,指出它在本质上与传统的概率论是一致的;但是至少从工程应用角度,模糊技术仍有它十分重要的优势。 似乎模糊集理论从一开始就和推理系统结合更紧密,因此,在模式识别领域中,模糊技术在句法模式识别中的应用非常活跃。 在诸如决策树这种推理性质的模式识别系统中,模糊逻辑也得到很好的应用。 5.神经网络识别方法 从深层意义上看,模式识别与人工智能所研究的是如何用计算机实现人脑的一些功能。 一方面,从要实现的功能出发,我们可以将功能分解成子功能,直至设计出算法来实现这些子功能。 这是自顶向下的分析方法。 另一方面,人脑无论多么复杂。 都可以看作是由大量神经元组成的巨大的神经网络。 从神经元的基本功能出发,逐步从简单到复杂组成各种神经网络,研究它所能实现的功能,是自底向上的综合方法。 两种方法各有优缺点,适用于不同的问题。 1982年,Hopfield提出了神经网络的一种数学模型,引入了能量函数的概念,研究了网络的动力学性质;紧接着又设计出用电子线路实现这一网络的方案,同时开拓了神经网络用于联想记忆和优化计算的新途径,大大促进了神经网络的研究。 1986年,Rumelhart及LeCun等学者提出了多层感知器的反向传播算法,克服了当初阻碍感知器模型继续发展的重要障碍。 另一方面,20世纪80年代以来,传统的基于符号处理的人工智能在解决工程问题时遇到了许多困难。 现代的串行机尽管有很好的性能,但在解决像模式识别、学习等对人来说是轻而易举的问题上显得非常困难。 这就促使人们怀疑当前的VonNeumann机是否能解决智能问题,也促使人们探索更接近人脑的计算模型,于是又形成了对神经网络研究的热潮。 现在神经网络的应用已渗透到多个领域,如智能控制、模式识别、信号处理、计算机视觉、优化计算、知识处理、生物医学工程等。 应当指出的是,人工神经网络并不是一个十分严格的概念,而且,当感知器等基本模型最早提出时也并没有被冠以人工神经网络的名字。 现在,人们倾向于把那些具有大量(或多个)简单计算单元、单元之间具有广泛的连接、且连接的强度(有时还包括单元的计算特性)可根据输入输出数据调节的算法或结构模型称为一种人工神经网络。 不同的单元计算特性(神经元类型)、单元间的连接方式(网络结构)和连接强度调节的规律(学习算法)形成了不同的人工神经网络模型。 产生于不同起源和针对不同目的的神经网络模型有很多种,多层感知器、自组织映射和Hopfield网络都是其中具有代表性的模型之一。 前两者也是在模式识别应用中最典型的两种模型,后者更多地用于优化组合问题,比如模式识别中的特征选择问题。 神经网络模式识别方法的一个重要特点就是它能够较有效地解决很多非线性问题,而且在很多工程应用中取得了成功。 但另一方面,神经网络中有很多重要的问题尚没有从理论上得到解决,因此实际应用中仍有许多因素需要凭经验确定,比如如何选择网络节点数、初始权值和学习步长等;局部极小点问题、过学习与欠学习问题等也是在很多神经网络方法中普遍存在的问题。 有时会出现这样的情况,即同样一种神经网络方法,在一些应用中可能取得很好的结果,而在另外一些相似的应用中却可能完全失败。 还有研究表明,虽然多层感知器网络理论上具有实现任意复杂的分类的能力,但是对于一些识别中需要有可靠的拒绝的情况(比如身份确认),多层感知器似乎无法胜任。 这些问题的存在,已经在很大程度上制约了人工神经网络理论和应用的发展。 值得高兴的是,现在人们已经充分认识到这些问题,并开始进行更深入的研究,比如统计学习理论就已经在提供研究模式识别和神经网络问题的一个更完善的理论框架上取得了长足的进展。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 图像 理解 识别