《基于评论文本情感分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
摘要随着互联网的普及与广泛应用,越来越多的人在互联网上发表白己的主观言论,使得带观点的文本呈爆炸式增长。观点信息(也称情感信息)的收集与分析对个人、商业组织、国家政府等都有重要的作用。然而,由于网络中数据规模异常庞大,且呈现出散乱、无结构化、语言不规范等特点,给信息抽取任务带来了极大挑战。因此,针对WEB的观点挖掘研究应运而生。产品评论是指用户在购物网站或专业评论网站中发表的对某商品或服务的评价信息,它对个人用户和商业组织有很大的利用价值,是一种重要的情感信息源。为了更全面的挖掘情感文本中的关键信息并以更简洁的方式呈现出来,本文以产品评论为研究对象,研究了WEB观点挖掘中的评价搭配抽取以及篇章情感倾向性判断问题。本文的主要工作和创新点如下:(1)针对情感抽取问题,提出融合核心句与依存分析的评价搭配抽取方法。传统的情感抽取任务以评价对象为中心,但是单一的评价对象抽取的应用价值不大,且这种方法忽视了评价对象与评价词之间的共现关系。评价搭配的抽取弥补了这一不足,评价搭配是指评价对象与其修饰词之间的搭配,能够完整表达评论文本的关键信息。本文以评价对象与评价词之间的固有依存关系为核心提取评价搭配,针对网络文本的不规范性给依存关系分析带来的影响,提出了核心句抽取的预处理方法,针对省略评价对象的评价信息,提出了潜在评价搭配抽取规则。实验结果表明,与只使用依存关系分析的方法相比,核心句抽取以及潜在评价对象抽取提高了抽取的准确率和覆盖率。(2)针对篇章情感倾向性判断问题,提出基于混合粒度模型的分析方法。传统的情感倾向性判断往往只关注同一粒度下的文本,如词语级、句子级。然而,网络中的评论文本规模并不平衡,有些篇章由大量长旬组成,而有些仅包含少量词语,因此,基于单一粒度的篇章情感倾向性判断方法并不适用。考虑基于不同粒度文本的算法各有其优势,本文提出基于混合粒度模型的篇章情感倾向性判断算法,将基于词语级的篇章情感倾向性判断与基于句子级的篇章情感倾向性判断相结合。实验结果表明,相对于单一粒度的篇章情感倾向性判断方法,基于合混 綦于评论文本的情感分析研究合粒度模型的篇章情感倾向性判断取得了更好的结果。关键词"WEB观点挖掘;倾向性判断;评价搭配抽取;依存分析 AbstractWiththewideapplicationandpopularizationofInternet,moreandmorepeopleexpresstheirviewsandopinionsontheIntemet,whichmakesthetextwithviewgrowexplosively.Thecollectionandanalysisofviewinformation(alsoknownasemotionalinformation)haveamajorimpactonindividuals,businessorganizationsandgovernments.However,thelargescaleinformationonintemet,whicharescattered,unstructuredandnon-standard,broughtsomedifficultiestotheinformationextractiontask.Therefore,theresearchontheopinionminingcameintobeing.Productcommentsmadebythecustomerswhoevaluateproductsorserviceine-commercesiteorprofessionalevaluatingsite,hasgreatvaluetocustomersandbusinessorganizations,itisalsoanimportantsourceofemotionalinformation.Inordertogetthekeyinformationfromtheemotionaltextandtoexpressitinamoreconciseway,thispaperconcentratesonproductcommentsanddiscussestwoimportanttasksinWebMiningResearch:extractionofevaluationcollectionandorientationjudgmentforemotionaltext.Inthispaper,themainworkandinnovationsareasfollows:(1)Aimingatthefirsttask,weproposedamethodmergingextractingkernelsentenceanddependencyparsing.Intraditionalemotionalextractiontask,thecoreworkisextractingevaluationobject,buttheapplicationvalueofthismethodislittle,itignorestheCO—occurrencerelationshipbetweenevaluationobjectsandevaluationwords(sentimentwords).Extractingevaluationcollectioncanmakeupforthisshortfall.Evaluationcollocationisacombinationofevaluationobjectsanditsmodifiers,andCancompletelyexpresskeyinformationonthecomments.Thispaperextractevaluationcollectionbasedontheinherentdependentrelationshipbetweenevaluationobjectsandevaluationwords.Consideredthatnon—standardcommentsseriouslyimpacttheresultofdependencyparsing,weproposedextractingkernelsentenceasthepreprocessingmethod.Consideredthatsomeemotionalexpressionomitstheevaluationobject,weproposedapotentialevaluationcollectionextractionrules.Experimentalresultsshowthat,comparedwiththemethodonlyused 慕于评论文本的情感分析研究dependencyparsing,ouralgorithmaccessestohigheraccuracyandcoveragerate.(2)Aimingatthesecondtask,weproposedamixedmodel.Traditionalalgorithmsusedtodealingwiththetextinthesameparticlesize,suchasword—level,sentence—level.HoweveLthescaleofthereviewtextinthenetworkisuneven,somereviewtextalecomposedbyalargenumberoflongsentences,whileotherscontainonlyafewwords,therefore,themethodbasedonasingleparticlesizeisnotapplicable.Consideredthatthealgorithmsbasedondifferentparticlesizehavecertainadvantages,thispaperpresentsamethodbasedonamixedmodelwhichcombinedthewords—levelemotionalorientationjudgmentandthesentence—levelemotionalorientationjudgmenttogether.Resultsofexperimentshowthat,relativetothesingle-granularityorientationjudgmentforemotionaltext,themethodbasedonmixedmodelachievedbetterresults.Keywords:WebMining;Orientationjudgment;Extractionofevaluationcollection;IV 日录目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯IABSTRACT⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.III目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.V第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.1研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.2WEB情感挖掘概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21.3基于属性的观点挖掘国P勺#l-研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一41.3.1属性抽取研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41.3.2倾向性分析研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41.3.3观点整合研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51.3.4评价搭配抽取研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯61.4本文的工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.71.5论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.8第二章情感挖掘基础知识⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102.1情感挖掘中常用的机器学习算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一102.2中文词法及句法处理技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一132.3常用语料库⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯152.4常用评价指标⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯16第三章融合核心句与依存关系的评价搭配抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.183.1引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..183.2相关工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯183.3融合核心句与依存关系的评价搭配抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯193.3.1核心句抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.203.3.2依存关系模板与潜在评价搭配抽取规则⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.223.3.3基于点互信息(PMI)的评价搭配筛选⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一23V 暴于评论文本的情感分析研究3.3.4算法描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.4实验与结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯253.4.1数据集及评价标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.253.4.2实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯253.5总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.26第四章基于混合粒度模型的篇章情感倾向性判断⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.284.1引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.284.2相关工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一294.3基于混合粒度的篇章级情感倾向性判断⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314.3.1特征选取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314.3.2基于词语极性的篇章极性判断⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯324.3.3基于句子极性的篇章极性判断⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344.3.4基于混合粒度的篇章情感分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354.4实验及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354.4.1文本预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354.4.2LMRO模板⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯364.4.3混合粒度模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.394.5小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一41第五章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯435.1本文工作总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯435.2未来工作展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.44参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯46附录A图索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53附录B表索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53AppendixA.FigureIndex..............................................................................54AppendixB.TableIndex................................................................................54致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯55VI 目录攻读学位期间发表的论文目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56 第一章绪论1.1研究背景及意义第一章绪论随着网络越来越深入人们的生活,越来越多的用户参与进了互联网的建设中。互联网的信息共享方式逐渐取代了传统依赖于纸质的信息传递方式。在发展迅速的电子商务的影响下,越来越多的网民选择在网上进行商品交易,从而实现足不出户即可解决购买商品的问题。由中国互联网络信息中心(CNNIC)发布的《第30次中国互联网络发展状况统计报告》11J显示,截止到2012年6月底,中国的网民数达到5.38亿,互联网普及率达39.9%,中国网民人均每周上网时长增加至19.9小时,其中网络购物用户从2011年底的1.49亿升至2.1亿,增长了8.2%,占网民总数的39.0%,由此可见,网络购物仍然保持平稳的增长。2012年4月,著名的全球市场研究公司Nielsenzai在全球范围内对消费者信任的广告方式进行了调研,给出了一份名为(GlobalTrustinAdertisingandMessages))的报告[21,该报告显示,排在第一位的消费者信任的广告方式是身边亲朋好友对产品的推荐,网络上主观商品评论排在第二位,且有70%的被调查者表示其信任并使用在线评论帮助选择商品,这个结果相比2007年提高了15%。排在第三与第四位的分别是媒体报道与品牌官方网站。相对于排在首位的朋友推荐,网络评论所涉及的商品种类繁多、评论文本数大且更容易获得,因此适用性更强,但是网络中的海量数据使得评论中关键信息获取的难度增加,因此,文本挖掘中的相关技术被用来解决此问题。文本挖掘的目的既是通过一些算法挖掘出网络文本中的关键信息,全面、快速、直接地提供给用户。文本挖掘研究主要包括文本信息抽取[31、文本相关性检索[41、文本聚类‘5l与文本分类【6】等。情感信息是指带有情感倾向性的主观评论信息,如网络用户发表的商品评论。消费者和商业组织人员主要希望通过阅读商品评论得到两种信息:一是某产品在商品评论中表现出的总体倾向性,二是关于产品具体属性的评价信息。基于用户的这两种需求,情感挖掘被引入解决此问题。情感挖掘旨在抽取、组织、整理非结构化的网络评论文本中消费者感兴趣的内容,并将其转化成结构化的形式。情感信息资源主要有电子商务平台中的网络评论、专业评论网站中的评论、 暴于评论文本的情感分析研究论坛的帖子以及博客中的博文等等。情感挖掘的结果可以帮助用户选择适合自己的产品,提高购物的满意度,同时,也可以帮助商家了解产品的使用情况、同类产品的优劣以及用户的喜好,从而进行商场决策的调整以及产品的改进。然而,情感挖掘不仅仅可以应用在商品评论分析中,在其他情感信息分析领域也有广泛的适用性,例如,通过情感挖掘可以获得大学生中最受欢迎的课有哪些、公共问题的焦点等等,因此,情感挖掘研究具有广泛的应用价值。1.2web情感挖掘概述网络上有两类文本信息:事实与观点。事实是客观性文本,而观点是表达用户情感的主观性文本。目前,由于事实可以使用主题词表示,因此,对于客观事实的文本处理已经趋于成熟,然而,观点难以使用数个关键词表示,针对主观性文本的情感分析任务具有重大的研究价值。情感挖掘,又称观点挖掘,简单来说,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程t71。最初的情感挖掘是对网络中带有情感色彩的词语进行分析【8】,通常是对词语的褒贬性进行判别,如,“美丽"、“干净"、“好"属于褒义词语,“丑陋"、“脏乱”、“差"属于贬义词语。随着互联网上大量主观性文本的出现,单纯的情感词语分析已经满足不了用户的需求,研究者们开始对更为复杂的抽取任务以及句子、篇章的倾向性分析进行研究。Liu等人在属性层面将观点定义为一个五元组(oj,乃。,s‰,囊,f,)[91。D,是目标对象,在产品评论中通常是产品具体名称;厶是的o,一个特征(属性);曩是观点持有者;‘代表观点表达的时刻:%是观点持有者在时刻‘对目标对象D,的特征.厶作评价的情感倾向(褒义、贬义或中性)。观点挖掘的目标即是从给定的含有观点的文档中找出这五元组中五部分的对应信息。按照处理的粒度,可以将观点挖掘分为文档(篇章)层次的观点挖掘、句子层次的观点挖掘以及特征层次的观点挖掘。文档层次的主要任务是对整个评论作情感分类【10】【1I】【12】【13】,判断整篇文档的总体情感倾向性是『F面、负面还是中立的。文档层次的分析对大多数应用来说太粗糙,因此考虑句子层次。句子层次观点挖掘的工作重点在于主客观句的分类(主观句的识别)[141。文档和句子级别的情 笫一章绪论感分类可以从宏观的角度判断文本的情感倾向,但是仍然不能发现观点持有者对具体特征的评价,也不能挖掘出目标对象的具体某一特征的总体倾向性,因此需要深入到特征层次进行分析。传统的基于特征层次的观点挖掘主要有三个任务,一是抽取每个评论中评价的对象特征,包括评价的目标对象Oj和目标对象的特征.厶,抽取过程中考虑同一特征的不同表达方式,O,通常很容易得到或者是默认已知的,所以该任务以抽取目标对象的属性特征.允为主:二是判定该特征的观点倾向(正面、负面、中性),即倾向性预测。第三个任务是观点整合,在不同的评论文档中,相同的特征属性有不同的表达方式,且不同的人对相同的特征属性有不同的情感倾向(意见),观点整合实现了对多文档的评论文本中的评价对象(属性)及其情感态度进行综合整理的需求,最终提供给用户可靠、简洁的结构化数据【151。除此之外,近年来,评价搭配抽取任务【16】117】【18】【191受到越来越多研究者的关注。评价搭配是指评价对象与修饰该对象的修饰词之间的关系对,由于评价搭配深入分析了评价对象与评价词之间的共现关系,且评价搭配能完整展示评论文本中的关键信息,因此得到较广泛的关注。第三届中文倾向性评测(COAE2011)凹1将其作为新增的要素集抽取任务。基于属性的评论观点挖掘任务主要步骤流程如图1.1所示。图1.1基于Fi91.1TheProcessofPointMiningBasedonAttribute 慕十评论文本的情感分析研究1.3基于属性的观点挖掘国内外研究现状1.3-1属性抽取研究词性分析与语法分析首先被引入属性识别的研究中【8J。词性分析指的是目标词语的词性判断。由于目标对象的属性(以下称“评价对象”)通常是名词和少量动词组成,因此词性分析可以有效帮助评价对象预筛选。在词性分析的基础上,语法分析被用来对词语语法结构进行分析,大部分的评价对象不是由单独的词语构成,而是由一些特定结构特定词性成分的词语构成,如“诺基亚N97的按键蛮好用”,其中“诺基亚N97的按键”是需要抽取的评价对象,它由“诺基亚N97"和“按键”这两个名词组成,属于“的”字结构的名词短语,如果不考虑词语之间的结构关系,只考虑词性,则很难识别完整的评价对象。Yi等人【2l】采用基于词性的启发式方法对评论文本中的名词短语进行筛选和抽取,获得评价对象。Hu等人【221采用有监督关联规则挖掘方法进行评价对象的属性抽取,该方法假设一个最小处理文本中只含有一个评价对象,首先对评论文本按照标点符号和连接词(如“and”、“but”)进行分句,接着将已标注属性以及词性信息的训练文本作为训练集,使用关联规则挖掘的方法进行评价对象相关规则学习,得到候选规则集合,再通过剪枝算法得到最终的属性识别规则,在未进行标识的测试集中,使用训练集得到的抽取规则对评价对象进行抽取。Zhang等人【冽提出了基于浅层依存关系的评价对象识别方法,利用评价对象在依存句法中的结构关系对其进行抽取,实验结果表明,该方法优于文献[221所提出的方法。顾正甲等人【24】以依存句法分析为基础,提出SBV极性传递法识别评价对象,并引入ATT链对评价对象边界进行修正,该方法取得了不错的实验结果。1.3.2倾向性分析研究词语级的情感倾向性判断,即判断情感词的情感极性,以往的方法主要基于情感词典进行识别。由于情感词典包含的词语有限,且互联网上的评价词语呈现出口语化、现代化、网络化的特点,使得与情感词典中的词语匹配度不高,因此,现在研究人员致力于研究如何利用有限情感词典资源从文本中识别更多的情感词。Hatzivassiloglou等人【251利用词语在句中的共现信息,提出了一种有监督的学习算法,由已知词语的极性推测出未标注词语的情感倾向,例如由连词and连接 第一章绪论的两个单句中的形容词通常拥有相同的极性,而由“but”连接的两个文本片段中所含的形容词通常呈相反极性。Kamps等人【26J利用WordNet标注情感词,计算未标注情感词与已标注情感词之间的语义距离,以此判断未标注情感词的倾向性。Kim等人【27】利用磁性标签,对不同词性的词语分别建立情感分类器进行倾向性识别,同时也对句子级别的情感倾向性进行了研究。由于情感词语所表达的情感倾向性会随上下文语境或者所处领域的不同而发生变化,例如当形容词“低”在描述商品价格时呈褒义倾向,而在描述工资时呈贬义倾向,因此词语倾向性分析面临了一个新的挑战。Qiu等人【28】利用句子中各成分的语法结构关系,采用依存关系和其他有效关系间的信息传播构建了领域词典。COAE2011论文集【29】中,不少研究者将评价词语进行了严谨的分类,将WordNet中随语境变化的情感词去掉,并增加一部分不随语境变化的网络情感词,将极性容易发生变化的情感词与影响他们极性的评价对象结合起来研究,这种方法有效改善了情感词倾向性判断的正确性。对于篇章级(文档级)倾向性识别,研究者们通常将其看做二元分类问题解决。Pang等人130】采用机器学习算法分析评论文档的整体倾向性,并尝试了不同的分类算法,给出了实验结果对比分析。Dave等人【3】】也做了类似的尝试。中文方面,第一届中文倾向性分析评测(COAE2008)1321将中文文本的褒贬分析作为篇章级观点挖掘任务,乔春庚等人【33】利用模式的方法进行句子倾向性判断,再对所有句子的倾向性进行整合,得到文档的整体倾向性,该方法将待抽取信息抽象为一种模式表达,将模式定义为包含了主题类、情感类、否定词类、转折词类、程度副词类以及上下文辅助类的N元序列组合,该方法取得了不错的效果,但是基于句子极性累加得到篇章极性的方法不能完全表达篇章极性。全昌勤与任福继提出了在HowNet提供的情感倾向性词典的基础上,利用多项式核函数对中文评论文本进行褒贬倾向性判断[341,在COAE2008中取得了不错的成绩。1.3.3观点整合研究经过评价对象抽取及其倾向性判别之后,无结构化、松散的、充满大量冗余成分的评论文本被转化为结构化摘要信息的集合,但仍然存在如下问题未被解决:(1)海量的评论文本中可抽取出大量的评价对象极其倾向性对,全部浏览这些信息仍需要很多时间。(2)虽然评价对象极其情感倾向性对已经表现为结构化 皋于计论文小的情感分析研究文本,但是结构化程度较低,对同一评价对象的整体倾向性并未得到综合分析,且各评价对象受关注的程度未得到表现。基于此,观点整合研究致力于研究使用何种方式将这种摘要信息进行进一步的整合,从而呈现给用户更加简洁、可靠的结果。由于海量观点的存在,观点整合问题面临着巨大的挑战,专门针对这项研究的任务不多,目前的大部分学者采用一些统计的方法进行处理幽【35】【3611371,统计过程中,首先使用同义词词典或相似度计算的方法对同一评价对象的不同表达方式进行整合,接着计算各个评价对象的正面倾向性个数与负面倾向性个数,并按照倾向性个数总数的多少对评价对象进行排序。Hu等人【22】将挖掘出的观点使用图标的方式进行了直观的展示。Liu[35】等人搭建了一个观点挖掘系统,以柱状图的方式将挖掘得到的最终结果经过统计整合展示出来。还有部分学者【3811391采用筛选文本最优片段的方式将评价对象及其倾向性识别的结果进行直接展示。1.3.4评价搭配抽取研究传统的基于属性的观点抽取任务以评价对象抽取为核心,然而,在实际的评论文本中,评价对象与评价词之间存在语法结构上的固有关系,将评价对象抽取作为一个单独的任务忽视了这层关系,另外,评价对象不能完整表达评论文本中的关键信息,而评价对象与修饰它的评价词之间的搭配能够相对完整且具体的表现评论文本中的核心评价信息,因此,评价搭配抽取在近两年成为了观点挖掘的基础任务之一,收到了国内外研究者的关注。Bloom等人H们首次提出评价搭配的概念。最初,研究者们将评价对象与评价词之间的距离作为特征,首先确定评价对象,继而选择距离评价对象最近的形容词或者距离为K的形容词作为评价词进行抽取n小例,这种方法的经验性太强,系统性能较低。另外一些学者通过发掘评价对象与评价词之间的关系进行评价搭配识别。Kobayashi等人H31根据语法特性定义了评价对象与评价词的8个共现模板用以评价搭配的抽取,如“
此文档下载收益归作者所有