- 选题背景和意义:现如今,人们处于空前繁荣的信息化时代,各类物质和精神需求日益丰富。无论是繁忙的工作,还是休闲放松的娱乐活动,随之而来的各式各样的票据已经占据人们的日常生活。例如看病治疗使用的医疗票据,购物和餐饮使用的增值税发票,交通出行使用的出租车票航空行程单和火车票,以及其他活动比如停车、看电影、办理银行业务等,都要用到对应的票据。作为人们重要的消费凭证,这些票据上包含了很多有价值的信息。作为人们重要的消费凭证,这些票据上包含了许多有用的信息,在信息录入、发票报销和公司财务核算等流程起到不可替代的作用。传统的发票报销核算流程,往往需要相关财务人员逐一审査票据信息,并按照某些关键字段,比如姓名、时间、金额等信息逐一核对,通过人工的方式录入计算机财务系统。对于相关财务从业人员来说,将数量庞大的票据信息逐一核对录入并汇总,是一项耗费大量时间与精力的工作。随着数字图像处理技术以及深度神经网络相关研究的蓬勃发展,利用OCR技术进行票据信息的自动化解析识别,提取关键字段的信息,能够极大地缩短该工作所使用的时间和降低人为错误。在医疗领域中,随着现代社会医疗水平的提高,每天有大量医疗票据需要录入计算机存储与处理。然而在票据识别领域,之前的工作主要聚焦在财务票据,缺乏同样具有大量需求的医疗票据的研究工作。因此,研究如何实现医疗票据的高准确、高稳定的识别,对于解放人力和提高企业工作效率具有非常重要的意义。
- 课题关键问题及难点:
- 关键问题:票据识别主要流程为图像预处理,文本定位,字符识别。图像预处理主要是对图像进行降噪、矫正等,最大程度提升图像的质量,还原图像质量,为后续图像处理奠基。文本定位根据各部分内容进行分割定位,得到待处理的文字区域,对整幅图像中文本区域的精准定位,是实现最终高准确率识别的重要前提。在文本定位的基础上对得到的文本图像进行识别,是票据识别的核心步骤。本课题的核心问题就在于如何实现高准确识别文本。
-
- 难点:
- 图像数据集的建立,包括图像的采集以及标注;
- 字库数据库的制作;
- 图像模糊、倾斜以及字迹不清;
- 医疗票据部分字迹密集,不易处理;
- 文献综述(或调研报告):
文字识别技术的研究是计算机领域中比较传统的研究课题之一。最早在上个世纪50年代,用于识别英文字母的第一款OCR软件就已经诞生。随着实际识别需求的不断推进,涉及的应用领域范围逐渐扩大,相关识别技术持续发展革新,国内外学者分别针对印刷体、手写体、不同国家语言以及图像质量高低不一的文档等方面,做了大量的针对性研究工作。其中主要分为文本定位和文本识别两部分研究内容。
文本定位目前主要可分为传统的自底向上文本定位方法和近年来基于深度学习的文本定位方法两大类。其中,基于深度学习的方法又可分为以全卷积神经网络FCN为基础的像素级别分割的方法以及以目标检测网络 Faster R-CNN和SSD为基础的边界框回归的方法。早期的自底向上文本定位方法通常是基于连通分量进行定位,比如笔画宽度变换(SWT)、方向梯度直方图(HOG)和最大稳定极值区域(MSER)等。这种类型的方法过于依赖底层特征,忽略了文字之间的上下文信息关联,因此对于长文本区域的定位效果较差。此外,利用滑动窗口进行文本特征提取也是一种常用的定位方式。然而这种方式往往需要人为设计相应的特征,或者利用卷积特征,计算量大,速度慢。
近年来,利用深度神经网络提取文本特征,结合分类和回归的思想实现定位是目前普遍流行的文本定位方法。其中,基于像素分割实现定位的主要思想是通过卷积神经网络判断图像中某个像素点是否属于文本,或者某部分区域是否是文本区域。通过对整幅图像进行像素级别上的二分类打分,得到能够分割出文本区域的热度图。热度图中哪些像素点得分越高,那么对应区域是文本的概率越高。对于高于设定阈值分数的像素点进行分割,就能得到对应的文本区域。基于边界框回归的文本定位方法则是从更高层次的四边形框出发,通过不断缩小预测框与真实文本框之间的差异,达到精确定位文本区域的效果。这种方法首先需要根据文本的特性,设计一系列对应尺寸和长宽比的候选框,然后计算候选框与真实文本框之间的loU( Intersection over union)值,即两者的交并比。根据IoU值的大小将候选框分为文本样本框和非文本样本框,送入网络中训练。最终目的是使高得分的样本预测框不断逼近真实文本框,从而得到最终文本定位结果框。
在文本定位的基础上对得到的文本行图像进行识别,主要可以分为自底向上的文本行切分与单字符识别方法和以循环神经网络( Recurrentneural network,RNN)为基础的序列化文本识别方法。其中,基于RNN的识别方法不依赖于切分,通常与注意力机制或者联结时序分类(ConnectionistTemporal Classification,CTC)技术相结合直接识别文本行序列。
传统的切分单字符识别方案中,研究人员将文本当作普通目标进行识别,即不考虑文本自身的不定长度以及序列上下文特性。因此,此种类型方法的流程一般是首先使用滑动窗口、连通分量或者霍夫投票的方式切分得到单独的字符,然后采用分类器、模板匹配或者动态规划的方式将这些独立的字符识别成相应的文本。
近年来基于深度神经网络的方法开始在文本识别研究中占据主导地位。由于循环神经网络对具有依赖性的序列数据所具备的独特处理能力,这种方法可以完全脱离切分算法的限制,学习到上下文语义信息并且将输入数据序列映射到可变长度的文本输出序列。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。