眼控系统中交互式界面元素的眨眼触发动作研究文献综述

 2023-08-03 11:08

文献综述(或调研报告):

1.眼控交互技术原理

眼动研究原理是通过记录和分析用户在完成任务操作时眼睛活动的情况来探讨人脑内部思维过程[10],基于对眼动行为的分析[11]可揭示用户对操作界面的感兴趣区域或注意的指向及转移过程。瞳孔-角膜反射技术 (PCCR)[12]是基于数字视频分析的视线追踪系统最普遍使用的方法。眼动仪内的红外光源发射不可见的红外线到眼睛,从眼睛角膜反射的视觉内容和信息由眼动仪内的图像传感器采集[13],计算出眼球的位置和注视的方向,结合精密复杂的图像处理技术和算法可以构建一个注视点的参考平面图,从而可以获知被试所看的精确位置点。当然,在使用前需要在软件中校准可视焦段与可视范围,使得在此范围内的瞳孔注视点数据能被叠加在各类媒体上,形成眼像图。

2.关于眨眼检测的相关工作

2006年Bergasa等通过测量眼球参数实现了检测眨眼动作[15]。Bergasa等将用于圆锥近似的代数距离算法加以修改,后将椭圆拟合到眼睛瞳孔上。眼睛睁开的程度以瞳孔形状即拟合到瞳孔上的椭圆形状为特征。

2006年,Suzuki等测量了眼睛的张开[14]。首先检测的是眼睑。眼睛区域被分为了几个垂直的部分。在每个部分中,定义上下眼睑的候选项为灰度分布的最大和最小微分值。这些候选项被分为五个部分。选择两个候选项来代表上下眼睑。然后将全部五个部分用于计算眼间隙——眼睑候选项之间的平均距离。眼间隙被定义为眼睛睁开的程度。眨眼波形随着时间的推移而形成。当眨眼时眼间隙迅速缩小。眼间隙达到最小值(此时眼睛被认为是闭合的)后再逐渐增大。通过使用红外脉冲投影仪,这种方法可用于汽车环境中的睡意检测。

2007年Pan等使用条件随机领域(CRF)在以下的状态序列定义了眨眼:张开,模糊状态,闭合,模糊状态,张开[14]。他们设计了一个由一系列弱二元分类器的线性集合构成的低维特征,分类器用来检测眼睛的张开。实验引用了浙江大学的80个短视频的眨眼数据。Pan等对79个短视频使用CRF并对剩下的一个进行测试。最终结果由80次测试结果平均得到,最终结果达到了95.7%的检测率,错误的警报概率低于0.1%。但当时Pan等并没有提到是如何计算错误警报率的。

2010年,另一种关于睁眼测量的方法由Lee等引入[14]。Lee等观察到闭眼图像中的黑色像素数量要比睁眼图像中的黑色像素高,并引入了从二值化图像中得出的两个特征。第一个特征F1表示从连续帧的二进制图像中检测到的眼睛区域中的黑色像素的累积差异。黑色像素的数量受主体与相机的距离的影响。为了避免这种情况,该方法使用了一种基于累积差异的自适应阈值。第二个特征F2代表眼睛高度与眼睛宽度的比率。为了计算F2,通过腐蚀和膨胀滤镜对二值化的眼睛区域进行处理。眼睛状态(睁开,闭合)通过黑色像素的最大垂直投影来估计。张开的眼睛因为较高的最大投影值具有较高的比率。为了精确估计睁眼程度,作者使用特征F1和F2作为SVM的输入值。三个SVM分类器用于探测三种不同的面部旋转,以确定对象的眼睛状态。

2010年Danisman等利用对称性来判断睁眼程度[14]。Danisman等用一种基于神经网络的检测器对眼瞳进行精确定位。Danisman等使用两个瞳孔的垂直位置以计算头部的旋转角度。利用水平对称性分析感兴趣区域,以确定眼睛是睁开还是闭合。利用围绕两个瞳孔的线交叉中心的轴向对称性,将该区域分为两半。两半分别代表上下眼睑区域。这两部分是水平翻转的。如果眼睛睁开,由于睫毛的缘故,与闭合的眼睛不同,水平翻转的片段将保持对称。因此,上半部分和下半部分之间的不同被当作判别特征来检测闭眼。

2012年,Kroacute;lak和Stru-miłło提出了另一种估计眼睛闭合度并检测眨眼的途径——睁眼模板[14]。随着时间的推移使用相关系数检测眼睛。相关系数低于所定义的阈值将重新触发初始化。Kroacute;lak和Stru-miłło基于眼睛与其睁开的眼睛模板之间的相关性变化建立了一个眨眼波形。相关数值是二值化的睁眼与闭眼。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。