图像字幕生成的深度神经网络模型文献综述-文献综述网

文献综述

字幕生成长期以来一直被认为是计算机视觉和自然语言处理中的一个难题。

之前，由于计算能力的不足以及大规模图像字幕数据集的缺少，这就导致了国外很少有人做这方面的研究,其所得到的结果也让人不尽满意，在国内更是鲜有人涉及这个方向。

不过，随着近几年年计算机运算能力的提高、深度学习( DeepLearning )的发展以及众多大规模图像字幕数据集的出现，这才使得这项任务重新回归到人们的视野并逐渐成为了计算机视觉与自然语言处理领域中的一个研究热点。

1.研究背景及意义视频、图像和文本是人们通过视觉获取信息的主要手段。

图像生动形象，能够给人留下形象深刻的印象；而文本概括性高，能够以简练的形式描绘并传递信息。

随着图像分类以及目标检测与识别的不断发展，计算机对图像的理解能力不断加强，同时，计算机对自然语言的处理能力及处理方法也越发完善，从而使由图像到文本信息的转变成为可能。

图像字幕生成即将图像概括成文本，将图像中目标信息以及目标间的关系通过一段文字来描述。

从而实现辅助理解一些一些常人难以理解的图像，如遥感图像、高光谱图像等。

此外，对于视觉有障碍的人士，其获取信息的方式主要通过声音，而将图像转化为声音信息固然需要将图像转化为文本这一中间过程，然后才能将文本读出转化为声音信号。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。