- 研究目的
人类能够迅速地选取视野中的关键部分,选择性地将视觉处理资源分配给这些视觉显著的区域。在计算机视觉领域,理解和模拟人类视觉系统的这种注意力机制,不仅可以将有限的计算资源分配给重要的目标,而且能够产生出符合人类视觉认知要求的结果,有助于发展广阔的应用前景。
- 研究对象
人类的视觉系统(human visual system)具有极强的感知和数据处理能力,有研究显示[1,2],每秒约有 108~109 字节的数据进入人眼。认知科学领域的研究表明[3,4],视觉注意力机制(visual attention mechanism)是人类视觉系统具备如此惊人数据处理能力的重要基础:在处理视觉数据的初期,人类视觉系统会迅速将注意力集中在场景中的重要区域上,这一选择性感知机制极大地减少了人类视觉系统处理数据的数量,从而使人类在处理复杂的视觉信息时,能够抑制不重要的刺激,将有限的神经计算资源分配给场景中的关键部分,为更高层次的感知推理和更复杂的视觉处理任务(如物体识别[5]、场景分类[6]、视频理解[7]等),提供更易于处理且更相关的信息。
- 生理依据
从人类生理机理的角度而言,人类的视觉注意力机制基于视网膜的特殊生理结构:高分辨率的视网膜中央凹(central fovea)和较低分辨率的边缘视网膜(periphery)。视网膜的中央凹区域集中了绝大多数的视锥细胞(cone cells),负责视力的高清成像。当人类关注某一物体时,通过转动眼球,将光线集中到中央凹,从而获取显著区域的更多细节而忽略其他不相关区域的信息。可见,人类视觉注意力机制引导视网膜的生理结构,完成对场景信息的选择性收集任务。
- 研究问题
在计算机视觉领域,主要的研究问题在于怎样建立合适的计算模型来解释这种人类视觉注意力机制的潜在机理。
- 研究方向
- 人眼关注点检测模型
人眼关注点检测是指通过数学建模的方式模拟人类视觉注意系统的机能,对图像或视频中不同位置受到视觉关注的概率进行计算,通过与真实的人类眼动数据相比对,能够对模型预测的视觉显著性结果进行量化评估。
任务为,找到一个刺激-注意力变换函数,该函数通过最小化人眼关注点预测误差得到提取颜色、亮度和朝向这 3 种初级视觉特征;在多尺度下使用中央-周围对比度计算 3 种体现显著性的特征图。
传统的人眼关注点检测模型主要包含 3 个步骤:(1) 显著性特征提取;(2) 基于显著特征的显著性图推断;(3) 不同特征的显著性图融合。
- 静态场景中的人眼关注点检测模型
分为两种:自底向上(bottom-up)的模型和自顶向下(top-down)的模型。
自底向上的模型[8minus;13]受数据的驱动,典型的例子是人类在自由观看模式下分配视觉注意力的情形。这类模型主要利用图像中的颜色、亮度、边缘等特征,考虑像素与周围领域在特征上的差异,计算该像素的显著性。
自顶向下的模型[14minus;16]主要受任务驱动,受到人类主观意识的影响,包括先验性知识、当前的目标或对未来的预期。自顶向下的模型需要考虑高层的先验信息,例如人脸、车辆等,因此在基于特定任务数据上使用机器学习算法进行建模的方式,成为这类工作的主流。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。