文 献 综 述
- 研究背景及意义
1.1研究背景
在当今互联网高速发展的时代下,社交网络和移动终端技术的快速发展,兴起了很多社会媒体和社交网站平台, 越来越多的用户在社交媒体上针对各类事件发表自己的看法和立场。而微博就是其中最为流行的一种社交网络平台。微博作为一种社交网站的主要媒体形式,它短小、精悍、快捷,越来越受到人们的喜爱。人们也越来越倾向于通过微博获取新闻、评论、娱乐、知识学习等信息,不知不觉间,微博对网络舆情的传播施加了越来越重要的影响。
作为近年来和各大热点事件密切相关的一种社交媒体平台,微博受到中国亿万网友密切关注,热点事件经过微博的广泛传播后,不仅能造成巨大的社会影响,而且时刻刺激着政府相关职能部门的神经。
包括政治,法律,市场营销,金融和商业咨询在内的许多领域,都需要提出有说服力的论点。因此,为一个给定的具有争议的话题提出一定程度的赞成和反对的论点将具有重大的实际价值。微博用户对各种事件的立场态度,对政府和企业来说都是制定相应策略和生产对应产品的重要依据。在微博平台中,信息以前所未有的速度增长,并快速传播,这些信息涉及生活、社会热点、人际交往等各种信息。网民通过微博抒发自己的情感,表达自己的喜怒哀乐与爱恶,形成了海量的情感文本信息。与此同时,互联网经济的时代已经到来,拥有几亿用户的微博所蕴含的商机也吸引着众多商家在其上大做文章。因此准确判断微博话题立场,也就成为了当前互联网舆情研究的一个热点和重点。
1.2研究意义
利用机器学习对微博话题进行立场分析,可以有效帮助商家了解用户的喜好,进而做出和用户喜好一致的产品,制定能够获得高收益的政策。通过情感分析技术来分析这些微博中的情感文本,得出文本的情感倾向性,可以得到网民的情绪状况、对某个社会现象的观点、某个产品的喜好等信息,其不仅有一定的商业价值,还对社会的稳定有所帮助。立场分析通过对微博话题评论数据的分析,得到广大民众对话题的整体情感倾向,从而为相关部门了解民众意见和制定科学决策提供支持。
- 国内外研究现状
随着互联网的发展,越来越多的研究人员针对微博的立场分析采用了多种多样的方法。例如,朱嫣岚等人[1]基于HowNet,提出了两种词汇语义倾向性计算的方法: 基于语义相似度的方法和基于语义相关场的方法,通过计算待估词与预先选好的褒贬基准词对组的相关性,从而得到该词的立场;YI等人[2]通过建立倾向性模式库和倾向性词汇表对短语和句子进行语义关系分析,进而得到商品评论的立场。这项工作是第一个针对一个给定的主题来解决观点立场分类问题。将一个复杂的任务分解成简单的,明确的子任务的模型,通过广泛的数据标注和分析已经证实了这种方法的适用性和准确性。Walker等人[3],提出了一种根据发言者之间的协议关系来表示辩论的对话结构的方法,大大提高了对立场分类的准确性。Hasan等人[4],设计了一种可以自动计算出立场并将其有效地用于理性分类。Lukasik等人[5],提出了一种使用推特文本内容时间信息的谣言立场检测,并在Twitter数据集中取得了不错的实验效果。Sobhani等人[6],提出了一种可以应用在立场分类的基于主题建模的自变量标注框架。RoyBar-Haim等人[7]利用使用IBM的数据集,他们的方法依赖于一般的情感分析,而不是主题或领域的特征。注重对辩论话题和观点的精确语义分析,包括目标定位和对目标的指示和对比。使用L2规则化的逻辑回归分类器识别目标。将复杂问题分解成开放域目标识别、每个目标的情感分类、主题和观点目标之间的开放域对比检测,取得了不错的效果。Hasan等人[8]过研究数据,特征,模型,约束规则等四个方面,改进机器学习算法,提升了对立场的准确判断,使用最大熵(MaxEnt)分类器来确定某个原因是否在一个帖子和/或它的句子中表达。为每个训练集中的每个句子创建一个训练实例,使用标签作为类标签。自动计算立场信息并设计理性分类模型。Meishan等人[9]通过针对判断目标情感分析提出一个句子层次的神经模型。首先,使用定向神经网络来连接推文中的单词,以便将汇集函数应用于隐藏层以便更好地表示目标及其上下文。其次,使用三路门控神经网络结构来模拟目标提及与其周围环境之间的相互作用。取得了不错的效果。Meishan等人[10]提出了一种结合神经网络和CRF的方法对开放域目标情感倾向进行检测,取得了不错的效果。Margaret等人[11]提出了一种新的方法。情绪向实体表达,有针对性的情绪,可能被视为一种情绪的一个范围在整个实体中表达。根据这种表示对情绪检测进行建模,利用CRFs训练,最终取得了90%以上的准确率。Wang等人[12]构建了一个能够实时地对有关总统选举的评论信息进行情感倾向性分析的Twitter情感分析系统。王明元等人[13]研究了一种基于主题相关性分类的微博话题立场研判方法。该方法在传统倾向性分析方法的基础上,通过采用关键词抽取和互信息的方法构造主题词集,在对文本进行主题相关性分类后采取词典规则和机器学习两种方法组合进行判别,最后综合得到整个话题的立场。Zubiaga等人[14]提出了一种利用在Twitter中树形结构的对话线程中观察到的转换序列的方法,根据序列中的位置来分析推文的立场。Lukasik等人[15]开发一种自动化的监督式分类器,使用多任务学习,并针对一个复杂的对话中将每个推文中表达的立场分类为支持,否认或质疑谣言。
参考文献:
[1] 朱嫣岚, 闵锦, 周雅倩,等.基于HowNet的词汇语义倾向计算[J]. 中文信息学报, 2006, 20(1):14-20.DC:lEEE Computer Society.2003:427—434.
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。