多宝视服务论坛

认知科学对视知觉的认识(认知神经科学简介)

周谟圣 2008-12-11 19:10

认知科学定义为:“智能实体与他们的环境相互作用的原理的研究,向两个方向展开”(斯蒂灵等1987),是研究人类的认知和智力的本质和规律的科学。研究范围包括知觉、注意、记忆、动作、语言、推理和思考乃至意识在内的各个层次和方面的人类的认知和智力活。

1、 外延,列举了认知科学的分支领域以及它们之间的交叉关系:计算机科学、心理学、哲学、语言学、人类学和神经科学。

2、 内涵:发现心智的表征和计算能力以及他们在人脑中的结构和功能表示。试图以心智能力的结构、功能和内容来抽象地描述此种能力,探索由物质系统完成认知功能的各种途径;谋求表征生命系统中出现的心智过程,研究认知所涉及的神经机制。

认知神经科学的研究任务在于阐明认知活动的脑机制。研究感知觉、注意、记忆、语言、思维、意识等认知过程,研究智能的本质和起源。包括认知神经心理学、认知心理生理学、认知生理心理学(前额叶皮层功能、颞叶认知功能和复杂视觉及运动功能)、认知神经生物学(从生物物理学和生物化学的角度深入研究各种认知过程的分子、细胞学基础)、计算神经科学等学科。

认知科学对视知觉的认识:

一、视知觉的恒常性

1、恒常性
一个物体相对人眼的距离、方位、角度(如被旋转)和照明光线发生变化时,在视网膜上的成像也会有相应的变化,但是人的视知觉却是恒定不变的。
大拇指实验,人类的视觉与照相机的相同之处和实质的差别。Nike立方体(刺激本身和视网膜成像没有变化,但人的知觉却发生了变化)。
2、 能力、还是经验?
猴子也有,实验证明知觉恒常性不是依靠经验的积累,而是依靠自身的一种能力。毁损实验显示下颞叶皮层对这种能力起了重要的作用。
3、 视知觉不变性的能力很强,例如从人的侧面、背影、局部能正确判断是谁。但在某些条件下,知觉的恒常性却被破坏。
4、 视觉图像的解释

图形分割对知觉非常重要。Hoffman和Richards发现,两个任意形状的曲面作随机穿插时,其相交的边界,总是在凹性不连续处。知觉不变性是有限的、受条件约束的。它可能因为刺激太复杂、加工太困难或因为需要更大的神经系统或更多的计算时间而无法实现。有时它可能并不是必要的、有用的。另一方面,对刺激物体的知觉还包括整体意义上的加工,即:刺激与环境、与参照系之间关系的确定,刺激可以不受时空因素的影响,但是刺激与环境、与参照系之间的关系却受到这些因素的影响而变化。

二、视觉识别的三种模型

1、 模板模型
在记忆中储存着大量的视觉表征,即模板。识别就是内部表征与模板相匹配的过程。需要模板太多,要实现不变性的抽取。
2、 原型模型
多个相关刺激之间的相似性在识别中起了基本的作用。原型定义为一类刺激的平均。共性、个性。大大降低了对记忆贮存的要求,其工作也更灵活有效,但是对外界刺激究竟如何经过抽象,从而建立内部表征和原型的结构都缺少明确、具体的描述。得到了一些心理学实验的支持,Posner 和Keele 实验。
3、 特征模型
1950—1960年神经生理学实验发现了大量的对不同的性质(如线段方位、运动方向、颜色)有选择性反应的细胞。特征检测理论,在脑的内部,刺激被表征为一系列的特征。识别经过 4个阶段:图像、特征、认知和决策精灵。缺陷:实验所发现的选择反应细胞并不完全符合检测器的理论标准;不能解释内容优势效应。

三、整体和局部

1、内部结构优势效应
图形的整体性质决定了正确报告率。目标线段是三维图形中的一部分时,起报告正确率最高,甚至高于只有目标线段的图形。这是对特征检测理论的严重挑战。实验表明:整体对局部加工有作用。现在多数科学家都承认:人脑信息的加工是双向的,即从下到上(bottom-up),和由上向下(top-down)。计算机是前一种方式,缺乏人脑那种由上向下的加工,这可能是计算机面临困难的一个基本原因。
2、 视知觉组织
部分是如何组织、群集成一个整体是一个基本问题。格式塔学派(Gestalt) 。对流行的结构主义的挑战。结构主义认为:通过了解简单组成部分,就可以理解复杂的知觉,即把知觉分解成初始的感觉。格式塔反对这种还原论的思想,认为:部分之间的相互作用产生整体知觉,不同于部分之和,整体不等于或大于部分之和。对视知觉组织的研究主要涉及三个方面:群集、图形背景分割、知觉中的参考系。
3、 整体优先性

四、Marr的视觉计算理论

1、David Marr:1945年1月19日出生于英国。数学硕士,后攻读神经生理学的博士,期间受到神经解剖学、神经生理学、生物化学和分子生物学方面的训练,1973年作为访问学者到麻省理工学院的人工智能实验室工作,从此开始研究视觉,受到人工智能和神经科学两方面的影响。1980年去世。完成著作《Vision》,是计算神经科学的先驱。精华:在建立视觉的神经网络的计算模型时,加入神经解剖学(脑的结构)的约束的研究。

2、Marr的理论需要修正

Marr认为:视觉实际上是一种信息处理过程,一种分层次的、在各个阶段又不同信息表达方式的、模块化的和单向的(由低到高)的处理过程,而其最终目标,则是建立一个外部世界的描述(以某种方式给出)。有三个层次:

(1)将原始图像转换成基本要素图;(2)2 1/2描述,即以观察者为中心,物体的可视表面、深度与轮廓地描述(3)以物体为中心的三维物体的形状与空间位置的描述。各个层次都需要从三个方面去研究,即计算理论、算法与描述和硬件实。

五、并行的视觉系统和模块

并行的视觉系统:生理学和组织学的实验表明视觉信息是由一些并行系统加工处理,这些系统分别处理形状、颜色、运动等信息。模块和双分离:模块的基本性质:如信息的封闭性、通路的专一性等。模块已经成为研究人脑功能的重要概念之一,与此同时,“双分离”取代了“联合”成为近年认知神经心理学主要的研究方法。双分离现象,A、B功能分离,并行处理,相互独立的功能或模块。

大脑皮层中的两个视觉系统:物体形状和空间位置的知觉是人类视觉最重要的任务,这两项功能是由大脑皮层中两个不同的系统完成。基于两类实验证据:神经心理学实验;动物行为和解剖学实验。

认知神经科学的新时代

一、新问题:关于意识的问题。

Crick提出:(1) 脑内大量的运算是下意识进行的,而人们意识到的则是运算的结果。(2) 隐特征和显特征:两者包含同样的信息,但隐特征需要进一步的加工以使其外显或清楚的表现出来。(3) 多数心理学家认为意识与注意和短期记忆有关。
特征组合:(1)等级制或老祖母细胞理论。组合爆炸(2)集团编码:捆绑效应(3)记忆替代计算;(4)分布式等级制的组织——调和式的理论。

二、人脑与计算机——智能的本质

(1)图林测验:深蓝国际象棋机
(2)汉语实验:1990年Searle,说明计算机仅能按照程序法则处理形式符号,不具备人的职能。
(3)计算机的低能:多个物体的分割,抹黄油(几个小时)

三、认知神经科学的新方向

1、 视觉的本质
2、 单个神经元到神经回路的研究。
3、 研究路线:行为科学——神经科学——计算科学三角形。脑功能成像。