若要能查看论文中图片请注册。
引 言
当前,模型和理论研究已成为视觉研究的重要组成部分。国际权威刊物 Vision Reseamh自1992年起把刊登内容分成三大栏目:神经生物学;心理物理和行为生理学;计算视觉。最后一部分是当年新增栏目,内容包括:视觉模型和理论;视觉网络;计算机视觉。视觉系统中的信息加工是神经科学中最早理论化和模型化的分枝之一,也是神经科学中与工程技术及信息科学相互激励卓有成效的领域之一。
视觉感知是一个复杂的认知问题之一,用传统的单一学科方法(生理学、形态解剖学、行为学、人工智能方法··)难以进行全面探索,70年代后期国际上开始开展多学科的综合研究,举行来自不同专业的讨论会,出版不少专著,在视觉功能的理论水平上有很大发展。
本文就初级视觉神经元感受野的数学模型,特别是Gabor函数模型的提出和发展作一简单的历史介绍,进而说明这类模型的合理性,由它构成的神经网络可以解释的某些视觉功能,阐明其理 它价值以及在工程、医学上的应用前景和今后可能的发展方向。
初级视觉感受野数学模型的回顾
初级视觉是指视网膜图象经侧膝体到初级视皮层的神经信号转换成神经表达的信号传递与加工的过程。
1965年Rodieck提出用两个高斯分布之差(Diferenoe of Gaussian,简记为DOG 函数)描述哺乳动物视网膜和侧膝体上的对称型感受野(Receptive Field,RF)的空间性质,取得良好效果。工程上图象识别技术发现,DOG 函数是图象预处理中最常用的滤波因子,具有带通特性,适当选择参数,可增强图象中的轮廓。同年,顾凡及和汪云九提出用矩阵运算描述三层结构的感受野的一般模型 。当联系矩阵不同值时,可分别构造on一.ofr一以及on-of三大类感受野。该模型可反映感受野内部的许多性质(兴奋性的空间分布,不同部位之间的相互抑制作用,空间总和性等等) 在此模型基础上,引入时间因素(时延)可构造运动方向检察感受野的模型 而后者与文献中经常引用的Baflow & Leviek模型在本质上有许多相似之处。我们还研究了这一模型的空间频率特性。
70年代文献中仍有一些感受野的数学模型提出,并报道过一些实现视觉感受野功能的电子模型。到了8o年代初,关于感受野的数学模型,有了新的飞跃。澳大利亚科学家Mareelja首先用一维Gabor函数描述非对称型感受野的剖线图(profile),这类感受野普遍存在于视皮层,从而大大扩展了模型的范国H。Sakitt& Barlow在讨论皮层对视觉图象进行最经济编码时,考虑了Gabor函数模型的优点目。Kuliko,~ki, Ma 血,Bishop等人在研究视皮层简单细胞感受野的生理性质时,也尝试采用Gabor函数模型。Pollen和Ronner用单个电极在猫视皮层的同一空间位置上记录到一对相邻的简单细胞的感受野对移动的具有同一最优朝向和空问频率的正弦条纹调谐,仅在相差90。之时响应特性不同,其奇偶对称性可 用Gabor函数很好的拟合。
E~ugman从信息理论角度对空问视觉进行了一系列的计算分析、模拟研究和心理物理实验。1980年他分析了四种感受野模型,提出绝大多数感受野的二维空间频率与朝向调制函数之间关系是不可分离的(即,非独立的)。1984年l~ugman在人视觉的心理物理实验中证实了这点,并认为人的空间视觉接近Gabor函数达到的最小不确定性下限。1985年他明确地指出哺乳动物视皮层细胞的感觉野可用二维(2D)Gabor函数很好地描述,并从理论上证明2D—Gabor函数达到空间域和频率域的下限(1/4) 1987年Jones等人用电生理实验测量了视皮层l7区蒿单细胞空间及空间频谱的响应特性,在统计意义下,这些响应特性可以用2D—Gabor函数做相当好的拟合 他们指出,2D—Gabor函数不仅可对简单细胞感受野的结构做出统一地数学描述,而且它们在两个互异空间上可 达到最佳视觉滤波 从理论上解决了。特征检测 和 空间频率滤波器 的争论 1988年l~ugman设计神经网络,实现2D 图象的离散Gabor变换,从而在技术上解决了在2D-Gabor表象中非正交性的困难,为图象压缩开辟了一条应用Gabor函数滤波的具体途径 。接着Daugman又设计神经网络实现运动图象识别和质地分辨 而后他又把Gabor变换与子波理论联系起来,用信息的观点沟通了视觉理论与计算机视觉 (限于版面l~ugman的早期工作均可在此文献中查到)广义Gabor函数模型是视觉系统各层次上感受野时空性质的合理模型。
我们于1984年第八届国际生物物理学会上分组报告中提出用一族广义Gabor(EG)函数描述视觉系统各层次上感受野时空性质的数学模型 ,次年(1985)在本学报上连续发表两篇论文,详细介绍了这一模型内容 我们的模型在两个主要点上不同于其他模型:一是用一族函数(EG ,EG:等)来刻画视觉系统不同层次上的感受野性质;二是引人时间变量t以及相应的参数C等,从而可描述感受野的许多时间性质 q 美国Heeger于1987年提出的模型在表达式上与本模型族中的EG2(x,y,z)完全一样 ”。
哺乳动物的视觉系统具有明显的层次性和平行处理信息的特性,在猫、猴等动物上进行大量变验,Livingstone& Hubel和Zike在这些实验基础上总结出一些规律性结果,分别发表于1988年的Science和Nature上 我们的理论研究,依据这样一些实验结果,提出模型,然后用实验结果检验理论,并最后从理论上证明这些实验结果的意义。
我们提出的广义Gabor函数(EG)模型,是一族函数,它的最主要的数学形式有两种类型,第一类是建立在极坐标上的:
若想查看论文中此处图片请注册。
本模型中各参数都具有一定的生理意义,特别是: 、 (或 )表示空间频率, 是时间频率,0一初始相位,ty、 (或 )与感受野的空间分布大小有关的量, 与感受野反应的时间持续长短有关,这些参数组成一个空间: 、 、 、0、 、 )或U=、 、0、 、O"t)描述感受野的性质。当这些参数适当选取某些特定值时,亦即参数空间中某一特定点,它就代表某一特殊类型的感受野。
根据EG模型的数学公式,编制相应的计算机程序,并设计电生理研究中常用的种种刺激方式:小光点oR刺激,ofr刺激,移动边,移动条形等等。于是可以在计算机上进行 数学实验 ,检验模型与电生理实验的符合程度,在大量模拟实验的基础上,本模型可描述感受野的如下性质:空间性质:感受野地图;感受野剖线图(Profde);长度调制曲线;朝向调制曲线;频率调制曲线;调制传递函数(MTF);
时间性质:Oil反应;ofr反应;on—ofr反应;移动边反应;移动条形反应;运动方向选择性(附加适当结构)。
这些结果可用下列图形简单总结:若想查看论文中此处图片请注册。
用EG模型构成的神经网络解释视觉, 理物理现象感受野是视觉系统的基本功能和结构单元。如果一个感受野模型是合理和完美的话,用它构成的神经网络应当可以解释一些视觉心理物理现象 我们在这一方向上,用EG模型作为基本单元,构成不同的层次网络,分别说明超分辨(Hyperacity)、质地(Texture)分辨、调制传递函数(Modulation Transfer Function, MTF)和交变图等视觉心理物理现象。
(1)用EG模型构成的超视锐度网络正常人视网膜中央凹内,两个视锥细胞中 tk,的最大距离或视锥细胞的最小尺度约在3 0r到l 之间 但是在 tL,理物理实验中,如游标尺试验中,人眼分辨率可以高达5 一6 ,这就是超视锐度现象。这是用简单的物理方法无法解释的现象。我们用简单细胞的广义Gabor函数模型EG 为第一层感受单元,建立一个感受野一定程度重叠的具有比较运算性质的多层网络,可以实现游标尺度试验中的超视锐度的棒长一阈值性质,真实运动时以及似动物实验中的超视锐度现象。
(2)将EG模型用于质地辨认人们在观看具有不同质地的图形时,几乎立刻可以区分出不同质地的区域,Julesz称之为预注意(preattention)视觉现象 而用计算机来实现这一点则相当困难 我们用EG 模型构造一个多层次的神经网络(如下图),第一层用第一类广义Gabor函数EG 实现对输人图形的卷积运算,经过空间对数变换(E、L_Schwartz根据视觉投射的解剖学研究而提出的),然后经过八个不同朝向的第二类EG函数滤波,分离出图形中不同的质地子朝向,最后进行自适应密度滤波,得到不同质地区域的分割。这个系统头三层网络与视网膜、侧膝体和初级视皮层在功能和结构上有良好的对应关系。
若想查看论文中此处图片请注册。
基于这一原理,本模型可以用于指纹的自动识别。国内兄弟单位已将EG模型成功地用计算机识别人的指纹。
(3)用EG模型台成人眼调制传递函数人眼调制传递函数是视觉心理物理实验中常规测试手段之一。典型的MTF是一条带通滤波器特性曲线,截止频率在50—60c/d左右,对应于人眼最高空间分辨率。用Fourier分析方法研究MTF发展出各种多通道理论 我们曾经用七条EG 曲线合成正常的MTF取得良好的结果。温州医学院王胜初、方仲生、陈式苏等用本模型 目,研究正常和病理情况下MTF.发现开角型青光眼的某些参数值与正常值有明显的差别, 而认为本模型在眼科临床诊断上具有实际的应用价值。
EG模型的理论考虑以上两节已说明广义Gabor函数模型可刻画视觉系统中各层次上几种主要类型感受野的时空性质,由EG模型构成的特殊的神经网络,可以说明某些视觉心理现象。近来文献中也越来越多地把Gabor函数作为视觉信息加工的合理模型,而60年代初Rodieck提出的DOG函数相当于Gabor模型最简单形式的一种特殊情况。同时,在图象处理和信号分析中90年前后开始采用的 子波变换 技术,显示出多方面优于Fourier变换理论,而子波变换技术中经常使用的母函数之一就是Gabor函数。这一切启示我们去探索,Gabor函数在图象处理上究竟有什么优点?生物经过亿万年进化,发展到哺乳动物的视觉系统,从信息论的角度来看,为什么要具备现在的这种结构和功能?
在信息论的发展过程中,Shannon和Wiener提出信息的度量公式和单位,Shannon证明了有噪声和无噪声通道下的两个编码定理,物理学家把这两个定理与热力学中熵增规律联系起来,看作信息传递过程中不可逾越的客观规律。同时,从设计一个具体的信息接受系统来考虑,科学家发现,不可能做到完全不失真的信息接受系统,更深入的研究表明,如果希望信号通过信息接受系统后在实域上(如电子学中的时间域上,或光学系统中的空间域)不失真,那么这个系统在相应的频域上需要无穷宽的频率特性。这二者之间有相互制约关系,不可兼得。这一情况类似于量子力学中的测不准原理。在信息理论中称为最小不确定性极限。如果用(Ax)表示讯号的有效宽度,(△∞)代表讯号的有效带宽,存在下列一维不确定关系:若想查看论文中此处图片请注册。
Watson等的心理物理实验表明,对人眼来说,最佳刺激模式是以一定速度移动的2D—Crabor型条纹。Btm 从信息论观点提出,时间和空间作为视觉信息加工的重要维次,它们的分辨能力存在着相互制约关系,并受到某种限制。上述理论证明,用EG模型描述的视觉系统在图象信息的提取接受上,达到实域(二维空间变量和一维时间变量)以及相应的频率域上联合不确定性的下限,亦即,神经系统的结构和功能保证了视觉在时空信息的提取上,达到信息论含义上的最佳效果 。也就是说,经过漫长而激烈竞争的进化历程,哺乳动物的视觉系统发展成现在这种状态,是有其信息理论上的原由的。
所谓表象,就是外部世界在中枢神经系统内的一种表达,也是脑内外事件在信息上的一种对应关系。关于初级视觉,文献中提出若干理论。Barlow的神经还原论,认为神经系统中单个神经元的活动代表客观环境中某一特定事件的出现,这一理论主要依据Huble& Wiesel等人关于视皮层 老祖母 细胞特性而提出的。DMarc主要依据心理学研究,提出视觉的三级表象问题。
如果把视觉看作一个多层次的网络系统,第一级是视网膜,接受外界刺激(设光源的分布为m ,f))后,在某一层次上引起兴奋性的一种时空分布 y,r)。在某种近似条件下,考虑初级视觉的互逆性和齐次性, y,£)的时空分布可以从该系统的核函数以及输入刺激f(x,y,0推算出来。由于EG模型中包含有一定时间变量t以及时间参数 ,所以EG是一个变化过程(图3)。由系统理沦可知,EG实际上是输入端给予6 某一瞬时的点光源)式刺激下,某一网络层次上兴奋性的分布 我们把兴奋性的时空分布称为这一层次上神经信息波。
我们推导了EG神经信息波应当服从的波动方程 。对于第一类广义Gabor函数EG.,应当服从下列波动方程:若想查看论文中此处图片请注册。
结 论
哺乳动物视觉系统感受野的数学模型,从60年代的DOG 函数发展到80年代以Gabor函数为主要的表达形式,已经被电生理学家,心理物理学家和理论工作者 广泛采用和详尽研究 表明用Gabor函数来描述初级视觉的信息加工是合理的。同时,理论研究表明,生物进化到哺乳动物,其视觉系统从信息论角度考虑达到某种最优的界限。近年来,图象识别中子波变换的兴起,从另一侧面说明Gabor函数模型的完美性。
参考文献
1 R Rodim& :P'is~n Res..1965.5 583—6ol
2 征云九:生物化学与生物物理学报,1978.10:l一1^
3 YWang:in Vision:Structure and Function’(ed:D Yew eI a1)w0dd $cicntit-m,Singapom Jemeyl Hong Kong
1988 581—641
4 S.Marcetia 0pt.曲c A ,1980,70:1293—13130.
5 B Sakitt.et al:Bl。f c曲 .1982.43:97—108
6 J Dau~vrmn:厄EE ASSP, 1988,3 1169—1l79
7 J D日u鲫a玎:in Computationad Neurosclence ,ed,E L Schv,aztz,M『r P嗡1990 403—423
8 Y W an g eI al:8th International西Dp^ 帕Conore~,United n 。札29 July一24 AI 1984
9 饪云九等:生物物理学报 1985.1f2) [23—132.
10番卓华等:生物物理学报、1985.1(3):I23—132
l1 D Heeger J 0pt.曲c A 1987 :l455—1471
12汪云九等:中国科学、1989,Bf4) 386—393
13汪云九等:生物物理学报, 1989.5(1):84—89
14姚国正等生物物理学报, 1990.∞”:415—420
15 王胜初等·北京生物医学工程, 1990. 2) 77—81
16 齐翔林等:科学通报.1990.1 1337—1339
17征云九等:中国科学、199王B(1】:717—723
汪云九,齐翔林:初级视觉的Gabor函数模型的研究进展
dayoo 2009-01-12 19:32
非常想看這篇論文
jk_zhao 2009-05-14 14:14
希望樓主能夠分享
doboso 2009-05-14 15:09
gabor的应用越来越广泛了,从指纹识别到人脸识别,现在也已被应用到多宝视的视觉训练中。