基于深度语言模型的文本热词抽取算法及其应用
摘 要:对大规模评论语料进行精确的热门词汇抽取一直以来是中文自然语言处理领域的一个重要研究方向。诸如BERT[1]等深度语言模型的问世,给热门词汇抽取算法带来了新的曙光。利用深度语言模型从大量的评论文本中提取关键词作为候选热词,再通过一定的热度计算方法得到热度值,最后合理排序给出Top-N热门词汇的方法相比于传统方法,实乃一种更加精准、更加有效的热词提取策略。
关键词:热门词汇抽取、深度语言模型、热度计算方法
一、热词抽取的背景及意义
热词可以认为是流行面积广,一段时间内引起普遍关注的词语。热点挖掘是文本挖掘的一个重要组成部分,他和热词抽取有着千丝万缕的联系。目前大多数的热点挖掘算法都是以热门词汇为核心的,因此着力于热门词汇的抽取对热点挖掘任务有着重大意义。而热词作为一个随着“大数据”“人工智能”等一起诞生的概念,该领域专家学者们对它的研究还不甚成熟。特别地,在中文里,热门词汇甚至没有一个很明确的官方定义,这使得其研究在很大程度上带有主观色彩。
尽管如此,人们在这个领域已经进行了许多有意义的尝试。例如,在社交网络分析方面,2009年8月,新浪微博社交平台诞生的极大地推动了信息分享机制的发展,其独特的“热搜”功能使得人们能实时而方便地获取网络热点。这背后必须以强大的热门词汇和热门话题提取技术作为基础保障。在客户需求分析方面,惠普公司以HotMiner工具箱挖掘客户搜索日志[2],从而实现了对客户热门需求的精准定位。该工具箱的核心算法也是热词挖掘技术的一个成功实践。同样的,在网络政务舆情分析、学术研究热点检测、新闻热点发现等方面,热门词汇抽取算法也有着诸多应用,其算法质量的好坏也逐渐成为影响任务成败的关键一环。
二、国内外热词抽取算法研究的发展与现状
文档的热词提取算法和关键词的提取算法有着许多相似之处,甚至有着包含关系。解决了关键词的提取问题,许多热词的提取问题便能迎刃而解。因此在探索热词提取算法之前,有必要探索关键词提取算法。下面分成关键词提取算法发展与现状和热门词汇提取算法发展与现状进行介绍。
(一)、关键词提取算法发展与现状:
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。