5 视觉心理学基础.docx
- 文档编号:4330272
- 上传时间:2023-05-07
- 格式:DOCX
- 页数:12
- 大小:331.33KB
5 视觉心理学基础.docx
《5 视觉心理学基础.docx》由会员分享,可在线阅读,更多相关《5 视觉心理学基础.docx(12页珍藏版)》请在冰点文库上搜索。
5视觉心理学基础
第二章视觉心理学基础
自然科学依赖于知觉,没有知觉一切科学发现无从谈起。
但是直到今天,知觉本身还没有像其它学科那样引起普遍好奇。
只是到了近期,科学探索才向内转移,指向人类自身。
视觉是最重要的一种知觉。
对人类视觉的研究,始于对光的研究,因为要看见东西,就需要光。
迪卡尔、牛顿、胡金斯等人在研究光的过程中,逐渐认识到在人类视觉系统中隐藏着无穷的奥秘。
16世纪意大利科学家波尔塔指出暗室装置可用于作画,17世纪迪卡尔成功地看见了动物视网膜上的映像。
从此,人们开始了对人类视觉系统生理与心理的研究。
以德国科学家冯特在莱锡比大学建立的第一个心理学实验室为标志,科学心理学才有100多年的历史,但是科学心理学内部却是派别林立,纷争不断。
仅视觉心理学而言,就有五大学派。
要将视觉心理学应用到计算机视觉中,先必须从计算机科学的角度对视觉心理学不同学派的观点进行梳理,找出有利于解决计算机视觉问题的视觉心理学结论。
本章首先简单介绍人类视觉系统的生理学和解剖学结论,然后重点介绍本文要用到的视觉心理学结论。
2.1人类视觉系统生理基础
人的视觉信息处理过程已经进化到比较完美的阶段。
随着人类对自身视觉系统的研究逐步深入,无论是从初级视皮层到高级视觉区域,还是从知识的记忆到与视觉功能相关的脑功能等,都已取得了许多重要的研究成果。
神经生理学和解剖学的研究表明,视觉信息在大脑中按照一定的通路进行传递。
首先,视网膜细胞接受外界信息的信号,其中,柱状细胞主要感应光照条件的变化,而锥状细胞则主要接受信号的颜色变化。
视网膜有两类神经节细胞:
M和P细胞,其中,M细胞的感应域范围较大,主要接受轮廓和形状等信息,而P细胞的感应域较小,主要接受颜色和细节信息。
之后,视网膜上的神经节细胞将接收到的信号通过视交叉和视束传到中枢的侧膝体。
最后,信息到达大脑的皮层细胞。
在大脑主皮层内,视觉信息是按照视皮层简单细胞(Simplecell)→复杂细胞(Complexcell)→超复杂细胞(Hypercomplexcell)→更高级的超复杂细胞(High-orderhypercomplexcell)这样一个序列,由简单到复杂,由低级到高级分级进行处理。
图2-1给出了视觉信息从视网膜到大脑皮层的简单示意图。
图2-1视觉信息的处理生理过程
从神经信息的处理过程中可以看到,视觉信息处理过程是一个既有信息的横向流动,又有信息的纵向流动的极为复杂的动力学过程。
2.2视觉心理学结论
视觉心理学的主要目标是描述和解释人类视觉心理现象。
大多数视觉心理学结论是通过心理学实验,并经合理的逻辑推理而得到的。
另一些是对自然观察的结果通过归纳得到的。
还有一些来自计算机和模拟实验,如BelaJulesz在1960年用计算机生成的随机立体点对图(Random-dotstereograms)。
根据对视觉心理现象解释的不同,视觉心理学被分成五大流派:
(1)格式塔流派,它与强调心灵的先天趋向的传统有关系;
(2)推理理论流派,它通常与经验主义的观点密切相关;(3)刺激理论流派,与它相联系的传统是寻找自然界中物理变量与感觉变量间的对应关系;(4)计算理论流派,它强调视觉问题的精确光学计算与模拟;(5)拓扑理论流派,它强调整体观点和拓扑数学在视觉认知过程中的应用。
这些学派虽然对人类视觉心理现象的解释差别很大,但是各学派对视觉心理现象的描述却基本相同,这是因为人类视觉现象是客观实在的。
仅是这些相同描述就特别有助于我们弄清许多计算机视觉问题的本质。
所以,在应用视觉心理学来帮助解决计算视觉问题时,我们主要从这些相同的描述出发,同时也从多数学派都同意的解释中获得灵感(如第四章的图像物体大小恒常性计算理论)。
2.2.1本文用到的视觉心理学结论
自科学心理学创立以来,视觉心理学已经取得了丰硕的成果,因篇幅有限,不可能对它们一一陈述,故只介绍与本文后面各章应用相关的视觉心理学结论。
(1)感官世界[Rock1984,pp5][Gregory1997,pp85][Mach1999,pp25-248][Gibson1979]。
客观世界与我们所感知的世界大不一样,这是因为我们对世界的体验是由感官作为中介的,是从内部构造出来的世界表象。
我们所感知到的颜色、声音、味道与气味在现实物质世界中要么没有意义,要么具有另外一种意义。
狗眼中的世界是黑白世界,而盲人却是漆黑一团。
对于知觉中的颜色,物理学家说,这是一些表面对一定频率的电磁波的反射。
颜色、音响、味道与气味都是感官刺激所产生的构造。
作为这些东西本身而言,它们在活的心灵之外是不存在的。
如果森林中倒了一颗树,附近又没有动物听见,那么树倒的声音是不存在的,存在的仅是树倒下时引起的空气振动。
(2)眼脑并用[Rock1984,pp128-136][Gregory1997,pp1-13]。
人脑存有大量关于客观世界存在与变化的知识,这使视觉系统能进行推理。
所以,当我们考虑视觉问题时,不要仅专注于眼睛,而忘记了大脑。
存贮在大脑中的信息能加速推理。
结构化知识约束(自上而下的控制):
如果要想设计一个通用的机器视觉系统,必须首先对现实世界的知识进行分类,使之结构化。
当人们组织和理解客观世界时,使用三个基本的构造原则:
(1)识别物体和它的属性,例如,树和它大小、空间与位置;
(2)识别物体的整体和部分,例如,树和它的枝叶;(3)识别不同的物体集,例如,关于树的类和关于石头的类。
(3)看,需要学习吗?
[Gregory1997,pp136-169]大多数研究者认为,无论在生物社区,还是机器人社区,人眼使用的算法与机制都是最好的、最通用的。
这是长期进化的结果。
但是遗传仅形成学习的基础,为了会看,每个人必须学习大量的知识与技能。
个体的后天所形成的看的能力并不能直接遗传给他或她的后代。
机器学习约束:
人们不得不连续地帮助计算机学习,以便计算机把知觉信息与概念理解联系起来,就像人们对他的小孩所做的那样。
(4)注意力机制[Best2000,pp36-71][Treisman1980]。
注意是指心理努力的集中和集焦,是一种有选择性、转移性和可分解性的集中。
在知觉过程中,有大量的信息进入感觉记忆,但若不加以注意,很快就丧失。
因此,注意在为进一步加工而选择感觉信息方面,起着重要的作用。
一般倾向于把注意理解为一种有限的心理资源。
假若注意被指派去执行一定的任务,因为有限性,所以一旦它们被全部指派去执行任务,则不能同时执行其它任务。
根据需要注意与否,有两种认知加工方式。
一种是自动加工(Automaticprocess),它不需要有意识地分配注意来激起和维持的认知过程,如内隐记忆(Implicitmemory)。
这种加工方式一般是自下而上的,知觉系统直接接受外部世界输入信息的影响,而不受上层知识的影响。
这种加工方式也叫做“数据驱动的加工”(Data-drivenprocessing)。
另一种是控制加工(Controlledprocess),它需要注意来激起与维持有意识努力的认知加工,如外显记忆(Explicitmemory)。
这种加工方式一般是自上而下的,知觉系统不仅受外部输入信息的影响,而且也受已有的、有组织的知识结构的影响。
这种加工方式也叫做“概念驱动的加工”(Conceptually-drivenprocessing)或“任务驱动的加工”。
一般认为这两种加工方式是相互补偿的,当知觉系统更多地依赖感觉输入的直接作用时,控制加工(自上而下加工)就会减弱,即大部分信息来自环境;相反,当知觉系统更多地依赖控制加工(自上而下加工),则对外界刺激直接的依赖程度就下降,即大部分信息来自知觉者本身。
注意力机制告诉我们,应该把计算资源优先分配给那些容易引起观察者注意的区域,以提高现有图像分析方法的工作效率。
(5)视觉系统类似于概率计算机[Gregory1997,pp9-13]。
视觉脑先形成一个假设,然后用证据来检验这个假设。
如果不对,不断重复提出假设、检验假设的过程,直至得到一个最好的或合情合理的结论。
在这个过程中,所有存贮在大脑深处的知识将会被利用。
而眼睛和其它感觉器官与其说是给出关于环境的直接图像,倒不如说是给视觉脑提供提出假设、检测假设的证据。
有两种视觉脑推理机制:
无意识推理与有意识推理[Rock1983,pp1-16]。
英国心理学家Gregory提出了人类视觉系统通用信息处理模型[Gregory1997,pp251],见图2-2。
容易看出:
自下而上的图像信号经无意识处理(格式塔变换、恒常性变换、拓扑变换等)后,结合过去的知识被自上而下(有意识)地解释,然后指导个体进行物
体探索。
成功或失败的个体体会将由学习与反馈系统对知识库(记忆库)进行更新,而且情绪(Qualia)也会影响对图像信号的处理。
(6)格式塔(Gestalt)组织原则[Rock1984,pp113-123][Koffka1935,pp106-121][Watt2000]。
图像是光的强度阵列,仅仅是物体识别、事件感知、语义提取的基础,为了感知到丰富多彩的世界,人类视觉系统必须先用格式塔组织原则对视觉刺激进行分组。
格式塔组织原则主要包括分组原则和图形-背景分离原则。
分组原则主要包括五个方面。
(1)邻近性规律:
如图2-3-(a),我们倾向于把这些分离的点看作行与列。
(2)相似性规律:
如图2-3-(b),我们倾向于把相似的点分到同一组,所以我们仅看见了列。
(3)良好连续性规律:
如图2-3-(c),我们倾向于把构成曲线的所有部分分到同一组,同时把直线排除在外,因为直线与曲线的连续性不够好。
(4)闭合倾向规律:
如图2-3-(d),我们通常认为是两个矩形,一个挡着另一个,尽管我们只能看见一个矩形和一个L状的图形。
(5)共同命运规律:
以同一速度与同一方向运动的单位倾向于被分到同一组。
人类视觉系统能把图像分成图形(前景)与背景,图形(前景)是图像中重要的区域。
我们经常简单认为,图像中突出的部分是前景(图形),而向后退去的部分是背景。
图形-背景分离原则意味着:
(1)在存在二义性的图形中,小的区域(图2-4-(a))、对称的区域(图2-4-(b))、垂直或水平方向的区域倾向于被感知为图形;
(2)如果有两个区域,一个被另一个包含着,那么被包含的区域将被感知为图形,而包含它的区域将被感知为背景;(3)在图形与背景间的共同边界一般将会被分配给图形区域。
(7)同时对比(Simultaneouscontrast)[Gregory1997,pp87-92][Marr1982,pp259-261]。
人眼并不检测亮度、明度、颜色、运动等信号的绝对能量值,而是图形区域与背景区域的能量差异比值,就像Weber定律所描述的那样。
阈值约束:
局部阈值一般比全局阈值好。
补偿约束:
图形区域中的亮度、明度、颜色、运动等的能量应按照图形区域与背景区域间的对比度进行相应的补偿。
(8)恒常的世界[Rock1984,pp15-52]。
根据几何光学知识,物体在视网膜的映像,会随着人和环境不断变化,而且几乎每时每刻都在发生变化,但是对我们而言,外界的物体看上去都是一样的,有着标准的形状、大小、颜色、明度和位置关系。
这种现象称作知觉恒常性(Perceptionconstancy,恒常性变换)。
恒常性主要包含如下种类:
大小恒常性(尽管视网膜的大小在变,但人的感知大小基本不变)、形状恒常性、颜色恒常性(尽管外界的光照在变,但人对颜色的感知基本不变)、明度恒常性,亮度恒常性、及运动恒常性等。
图2-5-(a)是物体大小恒常性的例子,图2-5-(b)是颜色恒常性的例子。
恩默后像定律(Emmert’sLaw,相当于大小恒常性的另一描述)[Gregory1997,pp225]:
视网膜上的后像大小与后像的参考屏幕离人眼的距离成比例缩放。
这是视网膜图像在人脑内部进行心理映射的典型例子。
物体恒常性约束:
尽管时间流逝,但客观世界的物体却连续地、唯一地、恒常地存在着[Marr1982,pp205]。
(9)模块化原则[Marr1982,pp99-103][Gregory1997]。
人体感觉的每个子系统(如视觉、触觉),这些子系统的每个通道(如视觉子系统中的颜色感知通道、运动感知通道)基本是各自独立地工作。
有时,不同的子系统,子系统的不同通道得出的结论是不一致的。
此时,大脑不得不进行推理、权衡并做出最后的决定。
多通道约束,信息封装约束已经被面向对象分析方法论采用。
而且,视觉系统中某个通道的信息(如颜色)也许会影响或掩盖另一个通道的信息(如形状),这被称为视觉掩盖效应(Visualmaskingeffects)。
(10)双眼和深度线索[Rock1984,pp53-90][Gregory1997,pp61-66]。
双眼一起共享并比较信息,它们能完成许多单眼无法完成的任务,例如从两张稍微不同二维图像中建立三维立体视觉。
双眼间的会聚角(Convergenceangle)能用来测量距离。
其它的深度感知线索有:
双眼视差,晶状体调节,运动视差,及各种图像线索(Pictorialcues,如物体在图像中的高度、线性透视、纹理梯度、大气透视、物体间的遮挡、对物体的熟悉程度等)。
但是仅有会聚线索能提供绝对深度信息。
深度感知约束:
为了产生正确的深度感知,必须综合各种深度线索。
(11)亮度是一种体会[Gregory1997,pp84-97]。
亮度不仅是在某一时刻投影在视网膜一定区域上的光线强度的函数,而且与落在其它区域上的光线强度有关(见同时对比部分),还与视网膜刚刚接受的光线强度有关。
在黑暗中,暗适应机制(Mechanismsofdark-adaptation)以牺牲在时间与空间内的视敏度而提高视觉系统的感受野。
这是优美降级(Gracefuldegradation)的一种较好方式(亮度变化连续性约束)。
亮度也能通过它的影子反映出来,物体的影子能指示它的形状、大小和方位(自上而下的光源约束)。
(12)两种运动视觉系统[Rock1984,pp17-202][Gregory1997,pp98-121]。
一是图像/视网膜消极运动检测系统,用于被动地接受客观世界光线的投影。
另一个是头/眼系统,用于检测主动视觉,感知头眼的运动信息。
两者构成了双重运动检测约束。
当搜寻物体时,眼球以一系列快速颤动的方式移动(运动不连续性假定);当眼睛跟踪某物时,眼球平滑地移动(运动连续性假定)。
尽管所有的运动都是相对的,但是倾向于假定大的物体是静止的(运动参考系约束)。
视觉残留(Persistence)与似动(phi现象)使电影电视成为可能,更重要的是这些现象暗含了连续性,稳定性和唯一性假定。
更有趣的是,眼睛在检测物体的速度时,不用考虑时间(运动速度估计约束)。
(13)RGB能组合出所有的颜色吗?
[Gregory1997,pp121-135]仅用两种颜色,而不是三种就能产生大量的颜色。
三种基色(如RGB)并不能产生人眼能分辨的所有颜色,如棕色、金属色等。
颜色是一种感觉,它不仅依赖于刺激光的波长与强度,而且跟刺激物与背景的强度差异,以及刺激模式被识别成的物体性质有关(颜色计算约束)。
人眼不倾向于把白光作为各种颜色的混合光,而是把它看作一种通用的照明。
因此,在乡村的晚上,感觉汽车的灯光是白色,而在城市里,因有更亮的灯作比较,汽车的灯光看上去是黄色(颜色语义约束)。
(14)拓扑认知理论[章明1991,pp100-158]。
拓扑学是研究图形在连续变形下整体性质保持不变的科学。
我国心理学家陈霖、章明等人进行了一系列拓扑性质的视觉认知实验。
比较重要的拓扑规律是局部同伦律:
当一类景物的局部在容限空间内进行同伦变换时,人的视觉认知结果存在不受景物局部同伦变换影响的现象。
例如,人的眼睛和嘴的张开或闭上是局部同伦变换,但当一个熟人出现时,我们决不会因为此人将嘴张开或将眼闭上而不认识这个人,如图2-6所示。
视觉认知中的其它拓扑规律有:
同胚律、群集同胚律、群集零伦律,及似动与拓扑不变性等。
视觉拓扑认知理论是人类视觉系统从图像中重构信息的重要规律。
目前,计算机视觉系统在实时识别拓扑变换的同一物体时,碰到了实质性的困难,拓扑认知理论为解决这一问题提供了理论依据。
(15)整体大于部分之和[Biederman1987][Biederman1995][Koffka1935,pp176][Marr1982,pp300-327]。
如果仅仅着眼于问题的每一点,很多视觉问题都无法解决,答案还在于对整体的考虑。
研究整体与部分的关系是解决视觉问题的核心所在。
相同的部件,因各部件之间的关系不同,也许构造不同的物体。
所以,用少量的模板来匹配大量的物体是很有可能的,因为识别少量基元的概率方法是很成熟的(整体与部分关系约束)。
(16)Marr的基本物理假定[Marr1982,pp44-51]。
(1)表面的存在:
可以认为可见世界是由一些平滑的表面组成的,这种表面的反射率函数的空间结构可能是非常复杂的。
(2)分层次的组织:
一个表面的反射率函数的空间组织,往往是由一些不同的成像过程产生的;每个过程是在不同的尺度上起作用的。
(3)相似性:
对任一给定表面,通过以某一给定尺度产生反射率变化的过程所得到的各个项目,就其大小、局部反差、颜色、空间组织而言,它们相互之间的相似性比它们与该表面上其它项目之间的相似性总是要大得多。
(4)空间的连续性:
由单一过程在任一表面上所产生的标记往往是有空间组织的,它们排成一条直线或曲线,也许还能形成更复杂的模式。
(5)不连续中的连续性:
深度或表面朝向不连续的轨迹几乎处处平滑。
(6)运动的连续性:
如果运动的方向在多于一个点上(例如沿一条直线)不连续,那么就意味着出现一个物体的边界线。
(17)边缘感知与边缘类型[Rock1984,pp49-50]。
视觉系统仅捕获位于区域之间边缘处的照度差异,并且假定照明差异在整个区域内保持不变,直到另一个边缘出现。
而且视觉系统把各种各样的边分成两类:
光度边缘和照度边缘。
光度边缘是基于表面的光度差异;照度边缘是基于照明差异。
一旦分清了两类边缘,在确定光度的具体大小时,就只需要考虑在全部区域中表面光度有差异的边缘的光度比率。
照明有差异的边缘在这个运算中不予考虑。
视觉系统也许用三种信息来把光度边缘从照明边缘中区分开来。
最重要的也许是通常伴随照明边缘的、由暗到亮的逐渐过渡区域,即围绕阴影的半阴影。
另一种可能的信息是相邻平面的朝向,比如构成墙角的两墙。
一般来说,墙角两边的照度不等。
第三种可能的信息是边缘处照度比率的大小。
光度边缘的照度差异不可能超过30:
1[Marr1982,pp86-88],但是照明边缘却可以产生很大的照度差异。
(18)生态学理论。
它是描述人们在真实的日常生活中有文化意义的情境下使用知识的心理学理论。
在实验室受控环境下得出的结论不一定与现实环境中人们真实使用的认知系统相吻合[Best2000,pp28-29]。
人类感知到的客观世界不同于物理学家所描述的物理世界[Gibson1979]。
如果无法看见脚下的大地(地板)或头顶的天空(天花板),人类将很难能想象出纯粹空洞的空间(Emptyspace)。
生态环境中存在一些不变的信息,如纹理梯度[Rock1984,pp12-13][Gregory1997,pp192]等高阶不变量、地平线在视网膜中的位置等等[Palmer1999,pp229-236]。
如果在图像处理中能提取、利用这些不变量,就能为更高级的处理提供一些稳定的参考特征。
(19)其它。
从其它的心理学文献,可以整理出更多结论和人类视觉系统使用的假定(约束),例如物体刚体假定,高斯分布假定,光滑假定等。
表2-1列出了Thacker选用的关于计算机视觉错误评价模型的一些通用的假定[Thacker2002]。
表2-2列出了Marr所使用的从图像推导表面信息时所使用的隐含假设[Marr1982,pp280]。
但是,在计算机视觉中连续性、唯一性、恒常性和光滑性是最重要、最常用的假定。
表2-1Thacker的标准错误模型假定[Thacker2002]。
例子
数据
错误模型假定
基本数据
图像
一致随机高斯分布
统计分析
直方图
Poisson抽样统计
形状分析
边缘位置
Gaussianperpendiculartoedge
形状分析
线拟合
端点一致高斯分布
运动
角特征
Circular(Elliptical)Gaussian
3D物体定位
立体数据
Uniformindisparityspace
表2-2Marr的从图像推导表面信息时所使用的隐含假设[Marr1982,pp280]。
处理或表象
隐含的假设
原始要素图
空间一致性
完全要素图
与反射率函数的空间组织有关的各种假设
体视匹配
唯一性
方向选择性
运动的方向连续性
从运动恢复结构
刚性
视觉流
刚性
遮挡轮廓线
平滑性、平面型轮廓发生器
表面轮廓线
局部的柱形表面、平面型轮廓发生器
表面质地
表面元素分布和大小的均匀性
亮度与颜色
只有局部比较是可靠的
光源
光源是均匀的
在后面章节中,我们会陆续用到这些结论。
在第三章中,我们将应用第
(1)、
(2)、(3)、(5)、(6)、(7)、(8)、(9)、(14)、(15)、(16)条结论来定义图像语义与图像语言,构造图像语义提取算法流程。
在第四章中,我们将应用第(8)、(10)、(18)条结论进行图像大小恒常性计算。
在第五章、第六章中,我们将在第(10)、(18)条结论的启示下,进行单幅二维图像深度估计与三维重建。
在第七章中,我们将应用第
(2)、(4)、(5)、(7)、(9)、(11)、(12)、(13)、(16)、(17)、(19)条结论进行计算机视觉算法评价。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视觉心理学基础 视觉 心理学 基础
![提示](https://static.bingdoc.com/images/bang_tan.gif)