基于商品特征挖掘的在线评论有用性分类研究

基于商品特征挖掘的在线评论有用性分类研究

ID:35062676

大小:7.07 MB

页数:68页

时间:2019-03-17

上传者:U-56225
基于商品特征挖掘的在线评论有用性分类研究_第1页
基于商品特征挖掘的在线评论有用性分类研究_第2页
基于商品特征挖掘的在线评论有用性分类研究_第3页
基于商品特征挖掘的在线评论有用性分类研究_第4页
基于商品特征挖掘的在线评论有用性分类研究_第5页
资源描述:

《基于商品特征挖掘的在线评论有用性分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

乂么毯^义葦DALIANUNIVERSITYOFTECHNOLOGY颇±享恆巧文MASTE艮乂LDISSERTATION'幽-I基于商品特征挖掘的在线评论有用性分类研究管理科学与工程学科专#作者姓名丰旨居教肺郭崇慧2016年6S答辩日期 硕±学位论文基于商品特征挖掘的在线评论有用性分类研究SUidonOnlineReviewHelftihiessClassificationBasedonypProductFeaUireMining作者姓名:张倚天学科、专业:管理科学与工程学号:21311009指导教师:郭崇慧完成日期:2016.06.16乂么巧义乂#DairslanUniveityofTechnology 大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中己经注明引用内容和致谢的地方外,本论文不包含其他个人或集体包经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:基于商品特征挖掘的在线评论有用性分类研究1作者签名:方日期:/之年6月7日_如鸣、_>/ 大连理工大学硕±学位论文摘要随着电子商务的快速发展,越来越多的消费者习惯于网上购物。消费者在发生购买行为后,可W对已购买的商品进行评论,这些评论不仅是消费者对商品卖家的反馈,同时也能对其他消费者提供建议和指导。商品的热销意味着商品评论的大量增加,某些火爆的商品动辄数万条的评论让卖家和买家都难W处理,这就需要双方从海量的商品评论,中快速地筛选出有用的评论从大量兀余的信息中提取出真正可^^指导销售和购买的有用信息。对海量在线评论中有用信息的迫切需求使得国内外研究者都不约而同地关注起了一—评论有用性分类评论挖掘的个具体的应用领域。本研宛考虑到各大电商网站普遍一无法提供全面的评论信息这现实情况,从评论内容本身及商品特征信息入手,通过商品特征挖掘为评论有用性分类特征的选取提供参考:为了充分利用海量的评论,本研究采用半监督学习的方法对分类模型进行训练,最终得到有优异性能的评论有用性分类模型。论文首先研巧己有商品特征挖掘方法的不足,从分词、剪枝和特征选取等方面进行有效改进,最后得到优化的商品特征挖掘结果,深入研究评论有用件的影;在此基础上一响因素,将商品特征信息作为个重要参考因素加入到有用性分类特征集合中;最后利用支持向量机的重要扩展一一直推式支持向量机进行半监督学习,综合利用有标签评论和无标签评论,训练出在线评论有用性的半监督分类模型。结果显示该分类模型表现优于传统的监督学习模型,在只考虑评论内容信息条件下有较好的表现,进而说明商品特征信息是影响评论有用性的重要因素,而半监督学习可W有效地提升分类结果。关键词:评论挖掘;有用性分类;半监督学习;商品特征;直推式支持向量机--1 基于商品特征挖掘的在线评论有用性分类研充StudyonOnlineReviewHelfulnessClassificationBasedonpProductFeatureMiningAbs化act-WiththeraiddevelomentofecommercemoreandmoreCO打sumersareaccustomedtopp,-sho.inonlineWhenonlineshoinbehavioroccursconsumerscancommentonppgppg,urchasedoodswhichrovides打oto打lfeedbacktosellersbutalsoadvicea打duida打cetopg,py,gotherCO打sumers.Ani打creaseinproductsalesalwaysbri打gslargeamountof0打li打ereviews,a打dsomehotroductsreceive化打thousandsofreviewswhichmakeconsumershardtoha打diepwith.Itreuiresbothsidestouickl打Iterouthelftilonesfromthemassofroductreviewsqqyppandextractusefili打formationfromalargenumberofredundanti打formationtouidethesalegandurchase.pTheurent打eedsofusefiili打formationindicatedinmassiveonlinereviewshaveraisedg^domesticandforeinresearchcsecificeldofrev-gersoncernonapfiiewmininreviewghelpfulnessclassification.In化isstudy,we化keintoaccountthereality化atmo巧护commerce,化rtsiteseneralldontrovidecomrehensivereviewinformationandsinfrom化eroduct,gyppgpfeatureinfbrmationinreviewcontentswerovideareferenceforreviewhelfulness,ppclassificationbyproductfeaturemining.Totakefulladvantageofthemassivereviews,wei-i化adotasemsuervsedlearniaroachlifintotrainecassicato打model.Finallweobtainappgppy,reviewhelfulnessclassificationmodelwi化excellenterformance.ppWea打alzethedeficie打ciesofexistinroductfeaturesmininmethodfirsta打dimrovey呂pg,pwordsegmentation,featureselectionandrunin1:oetanotimizedroductfeaturemininpggppgresults.O打thisbasis,westudy1:hein打uentialfacersofreviewhelpfbl打巧s,andaddproductfeaturei打formatio打asanimportantrefere打cetothefeaturesetofthereviewhelpfulnesslV—cassification.FinalltilizeanimortantextensionofSuortecMhinweu1;oracey,pppTransducuri-tiveSppotVectorMachinetodeploysemsupervisedlearningand化ainthei-semsuervisedclassificationmodelofonlinereviewhelfulnesswhichusebothlabeledandpp,unlabeledreviews.Theresultshowsl;hal;化eclassificationmodeloutperforms化etraditionalsuervisedlearninmodeleseciallwhenCO打siderinreviewcon化ntinformationonl.Thepg,pygy'resultindica化s1hatoductfeUinformationisanimortantin打uentialfactofi;praireprorevewh-elfulnessandsemiliisuervisedlearninaneffectvemrovel;heclassificatip,pgcyponperformance.-II 大连理工大学硕±学位论文Words-Ke:ReviewMininHelfulnessClassificationSemisuervisedLearniny呂;p;pg;ProductFeatureTransductiveSuortVectorMachine;pp-H-I 基于商品特征挖掘的在线评论有用性分类研究目录摘要IAbstractII1绪11.1石巧究背景与意义11丄1研巧背景11丄2研究意义31.2研巧内容与组织结构41.3研究方法与研究路线62国内外研究综述72.1评论挖掘72.2商品特征挖掘82.2.1基于英文评论的商品特征挖掘82.2.2基于中文评论的商品特征挖掘9.23评论有用性影响因素102.3.1评论有用性概念102.3.2影响因素122.4评论有用性分类142.4.1评论特征选择142.4.2评论有用性分类算法142.518本章小结3基于在线评论的商品特征挖掘193.1问题描述203.2在线评论分词213.322特征候选集提取3.4商品特征的选择24-3.4.1TFIDF243.4.2情感指数253.5数值实验与结果讨论263.6本章小结294基于商品特征信息的评论特征选择30--IV 大连理工大学硕±学位论文4.1基于评论内容信息的评论特征324丄1评论长度324丄233句子数量4丄3平均句子长度344.434.1商品评级4.2基于35商品特征信息的评论特征4.2.1商品特征数量%4.2.2句平均持征数量%4.2.3持征情感词数量%4.2.4平均特征权重37.3其他评论特征4%4.3.1错别字数量%4.3.2有无重复评论%4.439本章小结5基于TSVM的评论有用性分类405.1问题描述405.2评论有用性定义415.2.1有用评论425.2.2无用评论425.3评论有用性的半监督分类算法435.3.1半监督学习方法435.3.2TSVM算法介绍445.4数值实验与结果讨论455.5本章小结49it论50参考文献52攻读硕±学位期间发表学术论文情况58致谢59大连理工大学学位论文版权使用授权书60-V- 大连理工大学硕±学位论文1绪论1.1研究背景与意义1.1.1硏究背景随着世界经济的快速发展和互联网的逐渐普及,电子商务作为有别于传统商业活动一、的新兴产业正在蓬勃发展。同传统商务样,电子商务同样W商品交换为中屯,旨在进行各种各样的交易和其他相关活动。但与传统商务不同的是,电子商务依托于电子设备和网络技术,,将传统的交易活动网络化、电子化、信息化是对传统商务模式的有效提升。电子商务由互联网的出现和发展而催生,同时又很好地缓解了经济发展所产生的各种各样的传统商业问题,。它将实体经济向网络经济迁移使现实中的买卖双方无需在现。实中面对面,可W轻松地在网络上实现交易电子商务的出现极大地扩展了交易的数量和质量,各大电商网站琳浪满目的商品、推陈出新的花式促销W及令人震惊的交易数额一都在揭示着电子商务这商业模式的日益火爆,如图1.1所示。聚讀纖毅亲头嫌^巧蛋弦巧电瑟读mm司法托操巧宁寫巧实巧巧国调觸卿宝法制齡《娩,JB主’换STi?義r備一'脚Sr々‘、‘;,-斑麵M溶平巧麵逆盛,冷賊径巧私^对_^巧.甚言斗P.;怎雪感禾护'奪交他机I:。jf一w;沁—圓曰w活当巧巧堯巧為衡細巧巧挑巧怒翔沒口密巧巧巧砍巧悚涩车^#^C:3巧度挥沒函巧好拒圓。热巧治斯,D留身巧巧賴巧巧色齿宝巧猶衣:々才》怯连鐵t!扇推历巧沒?巧;,忠做C4IP图1.1电子商务网站示例F-,11Examleocommercewebsiteig.pfe电子商务无可避免地将大量的买家和卖家推向了网络,使双方在网络上进行商品的一一一一一购买和销售。传统的买卖方式往往是对,即个卖家在同时间将商品卖给个买--1 基于商品恃征挖掘的在线评论有用性分类研究一レ家;而电子商务中的买卖关系变成了多对多,个消费者可ッ同时下单多个卖家的多个一商品,而个卖家也可W同时将多个商品卖给不同的消费者。这种买卖方式的变化不仅带来了更多的交易,促进了电子商务更加迅猛的发展,同时也将卖家和买家这两个团体一更加紧密地联系在了起,。卖家想要持续地销售大量的商品获取利润就需要大量的粘性用户,而买家对商品质量的评价直接影响着自身忠诚度的高低,社交网络的信息共享更是将这种评价传递给了大量的潜在消费者,反过来影响着卖家的销售情况。买家对商品质量的评价在电商网站中的直观体现就是在线评论,作为Web2.0中常见的用户生成数据,这些评论不仅是消费者对商品卖家的反馈,同时也能对其他消费者一提供建议和指导,。对于某件商品卖家可W通过阅读和挖掘评论中用户的意见来提升产品质量和改进营销策略,潜在消费者也可W从他人对该商品的评论中获取有用信息,一最终来决定自己的购买意向,不同。消费者的购买行为具有主观性的消费者对同件商一品的关注点不尽相同,因而同样的条在线评论对不同消费者的购买倾向也会产生不同的影响品的评价也同样具有主观性一,不同消费者同时给出对同:消费者对商件商品的真实评价,但评论所表现出的对商品的好恶可能反差很大。尽管评论对买家和卖家双方都有重要的指导作用,但随着在线评论数量持续不断地増加,商品动辄数千条的评论让卖家和买家都难直接阅读,而某些火爆商品上万条的评论量更是让阅读者无从下手,12。如图.所示这就需要双方从海量的商品评论中快速地筛选出有用的评论,从大量冗余的信息中提取出真正可W指导销售和购买的有用信息。如果能够将大量的在线评论按其有用性的高低分为有用评论和无用评论,就可W很好地解决评论量过大而产生的阅读困难等问题。-2- 大连理工大学硕±学位论文^:fii〇6S4窝品m;B\m'邦纔黏亂細芋版R攝9W)(434)激纔淺耐90)學)濟流诀34MI''巧巧8-.—1W麽舍嗦■*々(慕苦好看1整範寂奥好\巧控)3441曰疫巧容@全部〇造评<)0留片(50)[.J■一---一巧黑蚕WPt个系蘇弓技■安皇的褒很随妨度可是巧了差不多年巧塞環寅草巧栗,,i.并且20140巧26:^海聴的12^了^ti3^清钟入蝴3百這1.韵不义巧始i5^硕^5,,.^廣^出删退.费g猫滞巧願巧挺.于是选择了6S,撫泣亂诘讯义肯離巧度,巧^<:4G、/‘…*寅是个16,.,??)不忍么礙神号太迈子消賓那就泛巧粗液不指的扔子络中国移就^李1《黑瑞:始涅办法’■‘汾.齡識麻溫讚巧括抵扔寮巧括:巧GS解壊恶’---:媛热卷A巧,。;.G?資巧坡宏告抗个廉覺舞禪,资辑惹遇们薛0賈xt顏帮雜方羅捷,赛蛋豫繼躁兴盘窝们.访0遮撞國为霜廣。蠢聽拽観谴;麗萄:歲杨荒賈的爱快約,客嚴房的是不绪!嚴.庭聚蛋买巧京酉夏韵是圧窟!夏切不巧、下巧唆买宮泄離遇!夏约黃赏不齡户个适!好巧!採極CPU是三星釣■巧一!是值不宿,天夏不超太安电遷得大豪藻空至巧要!图1.2在线评论示例Flliiig.1.2Exampeofonnerevew1.12.研究意义一随着社会化媒体的出现,20,互联网进入W沈.时代。在这时期网络用户在各具特色的社交网站上分享信息,进行多种多样的互动,自然而然的形成了或大或小的社交一,网络。用户在胸买某商品后,也习惯于将该商品的特点和使用感受记录下来W评论的形式发布到网络上,供社交网络上的其他用户查看。这些评论提供了全面的商品信息,。包含用户所关注的大量商品特征,W及已购买用户对这些商品特征的大量主观性评价从潜在买家的角度来说,他们能从这些评论内容中找到自己对商品的关注点,如果认可了评价内容所反映的商品信息,他们就很有可能选择购买,如果对相应评价内容所表达,在线评论能让他们的商品信息不够满意,他们就倾向于拒绝购买。从卖家的角度来说最直观地了解相关商品的购买者对商品的意见,并根据购买者的反馈来提升产品质量:消费者称赞的地方要继续保持,消费者不满的地方要迅速修正。一,从总体上讲,在线评论在电子商务的发展中起到了重要的意义但是具体到某条评论来说,它的有用与否是值得商権的。消费者往往把那些对自己的购买倾向起到影响。的评论认为是有用评论,这些评论往往包含了较全面的商品信息,有丰富的主观性评价一,还有可能是还有些评论属于无用的评论,这些评论可能与相应的商品没有太大关联,网络水军发布的不实评论,这些评论不仅不会对购买行为起到正面的影响还有可能误--3 基于商品特征挖掘的在线评论有用性分类研充导消费者的陶买巧为,。如何从大量的评论中将有用评论和无用评论准确地区别开即评一直是评论挖掘领域的研究热点论有用性分类,因其突出的现实意义。本研究从商品特征的角度入手,首先挖掘出用户关注的商品特征,接着分析商品特,征信息对评论有用性的影响,进而选择用于分类的评论特征对评论有用性分类模型进行学习。在对原始数据的预处理过程中,本研究考虑到评论数量的日益增多,对少部分评论加标签而让更多的评论处于无标签状态,针对已有的分类特征进行半监督学习,最终的实验结果虽示了该分类方法的可行性和有效性。本研究解决了外部信息不足时的评论有用性分类问题,同时提升了现有的监督学习模型的分类表现,具有较强的理论意义。12.研究内容与组织结构由于在线评论深刻的影响着电子商务中买卖双方的潜在行为,因而具有极大的研究,意义和挖掘价值,对。本文从评论有用性的角度入手利用文本挖掘的理论和相关算法在线评论有用性进行有效的分类。由于电子商务网站中的很多与评论相关的外部信息(评论发送者信息、评论阅读者信息)都不易获取,因而可W从有限的评论文本内容中挖掘影响评论有用性的因素,并利用这些影响因素对评论进行有用性分类。本研究旨在通过精确的分类将评论按照其有用性分成有用评论和无用评论,在阅读评论时用户就可W剔除大量的无用评论,通过阅读有用评论来获取相应信息,这样就极大地缩短了评论用户的阅读时间,提升了信息接收的准确性。本研究主要从W下几个方面展开:(1)基于在线评论的商品特征挖掘研巧。消费者对商品的评论归根结底是对商品一特征的评论件商品的不同特征有着不同的体验,通过对这些不同特征体。消费者对同验的描述,,得到对这件商品的总体评价;其他消费者通过阅读所关注的商品特征的评论最终决定自己的购买行为。商品特征包含了不同用户对商品的关注点,用户对商品的评价也围绕商品特征展开,准确地将在线评论中的商品特征挖掘出来有着极大的现实意义,。此外,作为商品评论挖掘的重要环节商品特征挖掘不仅能对评论进行有效降维,把复杂的非结构化评论用该商品的若干特征进行有效表示,还可为后续评论有用性分一,是整个评论挖掘过程环类等其他研巧提供挖掘的对象和数据基础中极为重要的。(2)基于商品特征信息的评论特征选择研究。评论特征的选择是评论有用性分类一工作的第个环节,首先要找到影响评论有用性的关键因素,即评论特征,之后再选择一分类方法,进而得到有用性分类模型般要从多个方面来考虑,例如。评论特征的选择一评论内容本身包含的信息,但是后两者在、评论发送者的信息、评论接收者的信息等些电商网站中并不容易获得,因此深度挖掘出评论本身包含的信息是非常有必要的。本-4- 大连理工大学硕±学位论文研究从评论中包含的商品特征信息入手,选取相应的评论有用性影响因素用于接下来的评论有用性分类模型的训练,解决了外部信息不足时的评论分类特征选择问题。(3)基于直推式支持向量机(TransductiveSupportVectorMachine,TSVM)的在线评论有用性分类研究,。在线评论有用性分类的目的是通过建立有效的分类模型将在线评论按照其有用性分为有用评论和无用评论。有用评论是指对用户的购买行为有正面影响的评论内容,无用评论是指对用户的购买行为没有影响或者有负面影响的评论内容,。由于评论数量的日益庞大传统的监督学习因其在数据预处理上的繁琐已经无法很—好地适应分类模型的构建,因此本研究利用TSVM直推式支持向量机这种有效的半监督学习方法来对大量的评论进行学习,最终得到精确的在线评论有用性分类模型。一二,本文共分为六章,第章为绪论第章为文献综述,第H、四、五章为本文的研,究内容第六章为结论:。各章具体内容如下一第章主要介绍了本研究的研巧背景、研巧意义,简要介绍了本文的研究内容和组织结构,及研究方法和研究路线。第二章对近年来国内外评论挖掘领域、特别是评论有用性分类和商品特征挖掘方向的研究工作进行介绍和总结,分析当前研充存在的问题,为之后的研巧工作提供理论支持。一第S章提出了种改进的商品特征挖掘方法,从分词、剪枝等步骤提升了现有研巧结果的精确性,同时提出情感指数的概念,从情感分析的角度对商品特征挖掘方法进行了有效的优化。第四章研究了从评论内容本身挖掘评论有用性的影响因素、提取评论分类特征的问一二题。本研究将评论的特征划分为H类:第类是基于评论内容信息的特征,第类是基于商品特征信息的特征,第H类是较易获取的部分外部特征。第五章主要提出了对在线评论有用性分类的半监督学习方法。该方法利用了直推式支持向量机(TSVM)处理半监督二分类问题的优良特性,将现有评论数据分成有标签数据和无标签数据用于训练分类模型。然后将训练得到的模型同传统的监督学习模型进行对比,验证本研巧结果的可行性和有效性。第六章对本研究的结果进行总结,同时提出本研究仍然存在的不足W及今后的工作方向。--5 基于商品特征挖掘的在线评论有用性分类研巧1.3研究方法与研究路线本研究采用文献研巧和数值实验相结合的研究方法,。首先阅读相关文献发现当前研究领域的研究现状后针对现有的研巧成果和不足,;然提出相应的待解决问题及其解,。决方案;最后对解决方案进行数值试验得到最终的研巧结果.3本文的研究路线如图:1所示首先阅读在线评论有用性分类领域的国内外学术文一一献,总结当前的研究进展和不足,提出待解决的问题针对评论本身的文本内容挖掘力度不足、有用性分类结果不够精确,,;之后针对待解决的问题提出对应的解决方案即挖掘商品特征信息作为分类的参考因素,并通过加入无标签评论数据进行半监督学,习;最后针对己经提出的解决方案进行数值试验,并对结果的可行性和有效性进行综合的验证。文献研巧研巧评论挖掘、商品特征提取和评论有用性相关的国内外文献J提出问题分析现有研究不足,提出需要改进的部分并给出解决方案J商品特征挖掘对在线评论进行有效处理得到商品特征厂评论特征选择分析商品特征信息,选择评论特征用于评论有用性分类J评论有用性分类方法利用TSVM算法,对己有评论特征进行半监督分类1数值实验已有数据进行数值实验,得山评论有用性分类结果图1.3研究路线图Fihdmg.1.3Researcroaap--6 大连理工大学硕±学位论文2国内外研究综述2.1评论挖掘对网络商品评论信息的迫切需求使得各国研巧学者都不约而同地关注起了文本挖一掘的个具体的应用领域一评论挖掘。评论挖掘旨在对非结构化的评论进行有用信息的提取,将评论用户所关注的商品特征、商品质量、其他消费者对商品的喜好等全面准一一确的表示出来,也,。评论挖掘作为个研究领域有其具体的研究内容和研究步骤个完整的评论挖掘过程如图2.1所示。商品评论语料库^j商品特征提取主观句定位—用户情感分析^i情感极性判定I掘S果展示户J2.图1商品评论挖掘框架巧.2.1Frameworkofroductreviewminingpgra(1)商品特征的提取:用户对商品的评论具体来讲是对商品特征的评论。如果能准确地将商品特征挖掘出来,就能获得用户对商品的关注点,消费者能迅速找到自己所关注的商品特征信息,卖家也可W针对用户关注的相应特征提升商品质量,改善服务,W争取更多的潜在用户。(2)主观句的定位:主观句是指评论中带有主观情感的句子,相较于客观句,主观句更能表达消费者对已买商品的主观性意见。在主观句中,用户喜欢用带有正负向极性的词语来描述商品特点和自己的看法,这些带有情感极性的词汇对其他用户的购买倾--1 基于商品特征挖掘的在线评论有用性分类研究W向能产生更大的影响。(3)评论观点的情感分析:确定主观句后要对主观句的情感进行分析,主要步骤是提取出商品特征对应的情感词,,。情感词多为形容词少数动词也能表达出主观情感口,6而副词可レ]ッ对已有情感起到加强或减弱的作用。(4)情感极性的确定:情感分正向负向,此外还有中立情感;不同词汇可W有情一一感极性,句话或者个段落也可W有情感极性将复杂的情感按H种类别进行划分可W很明显的看出用户对产品特征的喜好,而将用户对不同特征的情感综合起来,就是W对该商品的整体情感。(5)挖掘结果的表示:根据评论挖掘具体内容的不同,挖掘结果的表示也是多种多样,直观性是结果表。大多数研巧都会利用统计学知识对结果进行图表等形式的展示示要注意的重要原则。只有将复杂的信息用浅显的方式展现出来,才有利于用户查看并从中获取最想要的内容。中英文之间有着语法结构上的显著差异,因而对中英文评论挖掘所涉及到的挖掘方^法义及需要注意的问题也不尽相同,例如英文评论不需要分词,而中文评论的分词是挖掘过程中非常重要的初始阶段。目前英文评论挖掘的研究己经日趋成熟,在挖掘结果的基础评价指标(查准率、查全率等)上己经达到了比较高的精度,而中文评论挖掘结果比较来看还有很大提升的空间。其主要原因是中文语言结构的复杂性,使针对从句、条件句W及非显性主观句的挖掘产生很大难度,;而汉语表达的多样性和随意性又给用户情感指向和情感极性的判定带来了困难。近年来中文评论挖掘的研巧也取得了很大的tW进展,通过对特征的准确提取和情感的全面分析,中文评论挖掘的结果评价己经可W接近同类型英文评论挖掘的水准。2.2商品特征挖掘一商品特征挖掘作为评论挖掘的个具体应用领域,因其在电子商务客户评论中的重要实际意义而被国内外学者广泛研巧。2.2.1基于英文评论的商品特征挖掘外国研巧者较早研巧了基于英文评论的商品特征挖掘,取得了很好的成果。Hu等"一[1首先提出了人个系统完整的评论挖掘过程,包括商品特征挖掘、主观句定位、情感分析、极性判定W及结果显示等部分(如图2.2所示),并在文[10中详细阐述了商品]特征挖掘的方法。文14在电影评论的特征挖掘中借鉴了文13捜索情感词的方法,首[][]一先给出部分特征词,然后在WordNet词典中搜索出这些特征词的同义词作为电影评论-8- 大连理工大学硕±学位论文的特征。该方法考虑到了同义词在特征挖掘中的应用,然而没能通过对同义特征词的剪枝来得到更精确的挖掘结果。由于较早的特征挖掘结果在查准率和查全率上并不尽如人["]意,Popescu等人将改进的PMI(化intMutualInformation,点互信息)值引入特征词一剪枝,查全率略有降低而查准率有了显著提升,该方法同样没有考虑同义词对同特征一16山等人[]表示的重复性5[3[6开发了种新的检索系统116(1〇31,它只识别单个词和。9二词短语作为特征,并对每个产品的每个特征都进行打分,输出结果按照产品特征的打分综合排序,。该方法用打分的方式来区分特征的重要程度但是在识别特征的过程中依然没有用更加有效的剪枝来剔除冗余特征。 ̄ ̄…爬取评论rI词性标注Py'——mmmmJ)频繁特征采集I.AI特征剪枝JIy情感词集合y情感词抽取————情感倾向识别I非频繁特征识别^特征抽取—结果展不图2.2英文评论挖掘框架Fig.2.2FrameworkofEnglishreviewmining一通过W上研究可W看出,相近词义的特征词在表达同特征时有很大的重复性,同义词剪枝作为过滤特征的关键步驟能显著提升查准率,却往往被忽略;其他相关研究也s一twi大都采用关联规则来挖掘特征,因此是否有其他高效挖掘方法也值得进步研究。2.2.2基于中文评论的商品特征挖掘近年来基于中文评论的商品特征挖掘研巧也逐渐深入,认识到其与英文评论挖掘的区别与联系是研巧的前提,,。李实等人指出相较英文评论挖掘中文评论挖掘新增的难点主要有中文分词的准确性,、词性标注的灵活性和名词短语结构等。因而中文评论i挖掘要关注分词tww、剪枝W及特征选取方法等多个方面。早期的中文文本挖掘研究--9 基于商品特征挖掘的在线评论有用性分类研究也指出了分词和特征词选取精度的重要性。文口1用中国科学院计算技术研究所开发的]分词器ICTCLAS来对中文评论进行分词和词性标注,结果显示该分词器有较高的精度,日14但分词器的词典中不包含的领域词汇却很难被挖掘出来。文15借鉴了文[11巧文[][],的成果,用分词器S,该结果的精ICTCLA对评论进行处理并用关联规则挖掘出特征一确度己经接近了英文挖掘,但是同样没有优化分词过程来进步提升结果。在特征挖掘口2]-的关键方法选择上,周茜等人介绍了8种文本特征选择的方法,包括TFIDF和信息,增益等,给特征挖掘研究提供了新的思路。都亚辉考虑到了特征与观点之间的联系通过双向传播算法来找到商品特征和用户观点并利用领域相关度来优化特征抽取结果,一4-但是该方法没有对分词阶段做进步的优化处理。文运用改进的TFIDF算法提取特口]征,并用于文本的分类,得到了很好的效果,但没有对特征提取前的分词和剪枝步驟做出优化,。另外,孙春华等人还研究了评价特征的倾向性合成等内容W此来提升评论接收者的信息处理和整合能力。尽管目前中文评论挖掘研充己经有了很大的进展,但在特征挖掘的研究领域仍然有一提高的空间,己有研巧的分词、剪枝和特征提。为了进步提升特征挖掘结果的准确性取H个步骤还可W从W下方面进行有效的改进:对于分词步骤,通过扩充用户词典来尽可能地保留更多的特征词,引,;对于剪枝步骤入同义词典来剔除及合并同义词有效减少语义重复词项,,;对于特征提取步骤充分考虑到用户情感在评论中的作用进而提升提取结果的准确性。2.3评论有用性影响因素2.3.1评论有用性概念,随着社交网络的重要性日益提升1^及信息技术的不断完善在线评论在电子商务的发展中起到了重要的作用,引起了市场营销学和信息科学等研究领域的众多学者的广泛口6’27],论对商品销售的有效影响;商家还可^通关注。通过回归模型零售商可1^预测评^过分析消费者对己有产品的真实评价来改进已有产品-甚至推出适应消费者需求的新产品,;深入地分析商品评论还可W指导卖家进行精准营销实施更有效的客户关系管理等等,在线评论是他们分享产品使用评价的主要形式,对潜在消费。从消费者的角度来说者的购买决策起到了指导性的作用。。,P初始阶段,大多数学者重点关注评论的情感极性例如ang等人通过机器学,习的方法,运用文本摘要技术将电影评论文档中的主观性内容提取出来并将评论按其""""情感极性划分为也umbup和thumbdown。接下来,部分研究者开始从营销学和--10 大连理工大学硕壬学位论文29[3社会学的角度关注在线评论对消费者购买意向的决定性影响。例如,Lee等人分析了一负面评论和正面评论对商品营销的致性影响,。与此同时有学者开始研究在线评论的经济学价值W及评论中体现的用户需求。Ghose等人从评论中提取了影响商品销售的PU相关特征,并分别研究了各个特征变化时销售额的浮动情况。Lee等人用了关联规则和图分析的方法,从评论中精确地识别了用户需求。一随着在线评论数量的指数型增长,评论质量差异成为了个亟待解决的问题。用户所阅读的评论可能是有用的,也可能是无用的甚至是垃圾评论,这对评论阅读者来说既降低了信息获取的质量,又大大提升了信息获取的时间,同时还对阅读者的鉴别能力有。较高的要求。而对在线评论的大量研究结果,也因为评论质量的问题而大打折扣注意一一到这点后,部分学者对评论有用性的研究产生了浓厚的兴趣。研巧者认为,同则高质量评论对不同人来说其有用性可能有细微差别,但是低质量的评论对所有人来说都是LP2一iuH人无用的,因而应首先研究低质量评论:。等人为无用评论分为两种种是内容一质量较低的评论,这种评论含有较少的有用信息,对阅读者基本无参考价值;另种是垃圾评论i,这种评论对阅读者有逆向的引导作用,影响更加严重。Lm等人又具体研究了这两种无用评论,垃圾评论是指由评论者捏造的对评论对象有巧毁倾向的恶意评论,这种评论会严重误导评论阅读者,对阅读者来说;而低质量评论因为其信息量不足一同样是无用的,;值得注意的是,用户同样不愿意阅读有拼写和语法错误的评论送类评论也属于无用评论。确定了无用评论的概念后,针对无用评论的研究逐渐集中在了垃PW圾检测上。["Zheng等人襟合了已有研巧,并充分考虑评论有用性的影响因素,提出了较为全一面的评论有用性概念,认为条有用的评论应该符合W下条件:一(1)条有用的评论要尽可能地涵盖更多商品特征的具体描述和评价内容,例如一条有用的手机评论要包含大量的操作系统、屏幕、电池、重量等方面的信息。同时,一条有用的评论还要有综合的个人体验和评价,不能简单地复制他人的描述或评论。—(2,)条有用的评论基本没有拼写和语法错误且主要由短句组成尽可能使用熟悉的单词和短语,内容跟所评价的商品尽可能相关。(3)有用评论的提供者应该是评论者团体中的活跃成员,并能收到其他评论者给与的正面评价一。大型电商网站的评论系统是个社交网络,网络中对评论者隐性或显性的评价代表了评论者在网络中联系的强度。因而评论者的收到的正面评价越多,他所提PW供的评论质量就更高。--11 基于商品特征挖掘的在线评论有用性分类研究2.3.2影响因素一则评论的相关信息包括了评论的发送者、评论内容本身W及评论的接收者,因而2.3所示评论有用性影响因素的研充也往往从这H个方面来进行如图。评论有用性影响因素ii评論譯评论内容本身:评论接收者=信息结构刺女琳几言说声平mm:,,篇芳齡人口统计学因素图2.3评论有用性影响因素F.2.3I打fluencinfactorsofreviewhelulnessiggpf从评论发送者的角度来说,个人的人口统计学信息、w往发送的评论质量w及在其他用户中的口碑等都会成为影响评论有用性的重要因素。Forman等人发现社交网站上披露的评论者信息对评论的有用性和其他用户的购买决策有显著的影响,公开地理位27h[]置的评论者所提供的商品评论对商品的销售额能起到良好的促进作用。Arcak等人研究表明更多的提供评论者的人口统计学信息能有效地提升相应评论的可信度,而评论一者在评论者团体里的地位W及活跃程度同样对评论的有用性有定影响。Back等人认为评论者在社交媒体中的排名是度量其声望和可信度的主要指标,排名越高的评论者42[43,Wh[l日殷国鹏发布的评论自然就越可靠,有用性也就更高acera。R巧等人的研充同样证明了评论者名声可信度对在线评论有用性的重要影响,评论者名声的可信度和在线评论的有用性呈显著的正相关。有的研巧者从历史评论总数和收到的好评情况来分析评论者与评论有用性的关联,。彭風等人从减少消费者决策风险的目标出发在感知诊断性概念基础上定义了评论有用性概念,构建了评论有用性影响因素模型,并从传播说服理论的维度验证了评论者的好评率和使用互联网经验是影响评论有用性的重要因素。评论内容是消费者在购买商品之前关注的最主要也是最直接的信息,评论内容质量的高低直接决定了该评论有用与否,因而评论内容是影响评论有用性的最重要因素,也--12 大连理工大学硕±学位论文是众多学者研究的重点。评论特征主要包括评论长度、评论星级(打分)、主/客观性表47amb[达、情感倾向等等方面。Mudi等人H人为评论长度对评论的有用性有重要的影响,因为评论长度和评论中包含的信息量呈正相关,评论中包含的有用信息越多,该评论的t48,4WW也证明了评论长度对评论有用性的重要影响有用性也就越高。其他研究者的结论。Siering等人发现在搜索型商品和体验型商品的比较中,评论长度对搜索型商品的影响,这主要归根于捜索型和体验型商品的特点不同更加明显:搜索型商品的特征能够更加直观的描述出来,相应的评价更易被评论阅读者接受,对他们来说,越长的评论就越有一用,;而不同消费者对同件体验型商品的感受可能有很大的差别因而其他消费者的评论对自己的影响相对来说较小,评论长度的大小对评论有用性的影响也就没那么明显2满54一口][]。Schindler等人在研究中发现,评论长度对评论有用性的正向影响只在定长度范围内有效,因为评论过长会使得评论阅读者对整条评论的理解能力降低,无法迅速吸收评论中的有效信息,在这种情况下评论长度与评论的有用性反而呈负向关系。一除了评论长度这特征,评论者在评论中表达的情感倾向也是影响评论有用性的重要因素。评论者对商品的打分情况、情感词的极性、主观句和客观句等问题都是己有研究重点关注的方面。Forman等人人为评论者对商品的打分和评级的高低表示着赞同、中立或者不满的情感倾向,对于评论阅读者来说,他们更想阅读有强烈情感的评论而不是情感中立的评论,因为带有情感极性的评论更能影响潜在用户购买与否。廖成林等人的研究结果表明,评论阅读者更希望在大量正向评论中寻找负向评论来阅读,即当存irin在较多高评级评论和极少低评级评论时,这些极少的低评级评论反而更有用。Seg等口1]人认为中立极性的评论在体验型商品的购买中会起到比极性评论更重要的作用,因为带有强烈情感色彩的体验型商品评论往往会因缺少可信度而引起质疑,远时客观的中立评论会更多的被评论阅读者采纳。对于评论的情感极性,不同研巧者的结论也不尽相同,口正向评论、中立评论和负向评论在不同的条件下会产生不同的影响。评论的语法和句法会形成评论的可读性,它包含评论的语言结构,、写作风格等可hoPW读性同样是影响评论有用性的因素。Gse等人和郝媛媛等人从语法和句法错误、词语选择、平均句子长度和词汇数量等各个方面验证了可读性对评论有用性的影响,然59而间强等人[]通过研究发现评论可读性的作用并不显著。评论的阅读者的差异同样会对评论的有用性产生影响,这种差异包括先验知识的了解程度、文化水平的高低等W1。对于先验知识丰富、文化水平较高的阅读者来说,显然wsi评论的有用性就更强。除此之外,还有研究者发现阅读者的性别同样会对评论的有用.性产生影响,相关研巧发现相较于男性,女性更容易对评论內容产生认周感,有用性也[6〇训就更强。--13 基于商品特征挖掘的在线评论有用性分类研究2.4评论有用性分类研究者已经注意到了评论数量的日益增加会导致评论质量的参差不齐,低质量的无用评论会对评论阅读者造成严重的负面影响。Lee等人就通过研究发现,用户间读受、信任的评论者提供的负面评论会引发从众屯理,如果该评论者提供的评论质量过低,甚至是针对该商品的恶意评论,就会影响大量人群的购买行为。评论挖掘领域的研巧者也证实了评论有用性的高低会影响相关研巧结果的准确性,因而如何从大量评论中分离得一62,w64t,]到有用的评论成为了评论挖掘领域的研究热点之。2.4.1评论特征选择一在对评论有用性进行有效的分类之前,首先要选取相应的评论特征。研巧者般从影响评论有用性的各种因素中挑选出评论特征,再进斤评论有用性的分类。本文己经提到有用性影响因素主要从评论发送者、评论本身和评论阅读者H个方面来考虑,而评论内容本身是特征选择要考虑的重点。,评论特征的选择可W从评论的正负情感从评论内容出发、评论中观点的表达形式、评论的体裁等方面充分考虑,最后选择出的评论特征有正负情感倾向打分、观点倾向评价概率、主观表达倾向概率和平均句子长度等。史伟等人从可信度、客观性、关联性等9个角度选取了包括产品评级偏差、观点句百分比、平均句子长度在内的共13项,用于评论检索系统的开发,评论恃征。随着中外学者对评论有用性影响因素研究的深入评论特征选择的范围也越来越广泛。用户的信任等级作为评论发送者角度的特征加入到66[]了评论有用性的分类中,Lu等人十算出评论发送者的活跃度和有用性平级作为对一评论特征的补充。有用户参与的评论系统本质是个社交网络,因而该网络的社会性越来越多的被考虑到,影响有用性的社会性特征也逐渐从评论的社会属性中挖掘出来。例68[]女口,Hu等人就通过分析商品意见分享社区中不同成员的特点来寻找相关的社会性特征,该研巧基于用户评论和信任网络来进行。此外,尽管评论阅读者同样是该社交网络中的成员,但由于评论阅读者的信息较难获取,所在实际选择评论特征时往往不考虑这一影响因素。2.4.2评论有用性分类算法一评论有用性分类是文本分类的个具体应用,而文本分类算法的研究己经日趋成-熟,常见的优秀分类算法主要有朴素贝叶斯算法、K最近邻算法、决策树算法、神经网络算法和支持向量机算法等。--14 *;:::^i〇义学硕论文一tW朴素贝叶斯算法是种典型的概率模型算法,其算法流程如图2.4所示。芭觀慈一本思路是通过类别的先验概率和词的分布计算文本属于某类别的橋率,具体方法是计算文本中毎个特征词属于类别的概率的综合表达式,而轉征词的类别概率可W用该词在该类别训练文本中出现的次数来粗略估计。朴素贝叶斯分类算法的目的是通过贝叶斯公式来算出文本属于某特定类别的可能性,最终将新样本分配到概率最大的类别中去。该方法有较强的独立性假设一,即给定个文本的类杨签,文本中每个属性的出现独立于文本中其他属性的出现,如果假设难W满足,那么方法的适用性就大大降低。化外,文本的稀疏性和离维度也减弱了该方法分类的精度。确定特征属性获取训练样本I对特征属性计算所有^对毎I类别什敬换)划分的条側率口II对每个类别计算WP(xP|yi)(yi)最大项作IIPxP(iyj为X所属类别|y)()^图2.4朴素贝叶斯算法流程围F4NaveBatig.2.iyesalgorihmflowchart一k-最近邻算法在文本分类中结合了向量空间模型,是种重要的分类算法。其基一个测试文本X一本思想为对于u,计算它与每个训练样本的相似度,找出最相似的k篇文本,再根据依据这k篇文本所属的类别来判断测试文本所属的类别5,如图2.所示。一般会在实验的开始阶段给出一个初始的k值,再根据实验的结果调整k的取值,直至得到最优的分类效果。KNN算法计算复杂度较低,对于较大的训练集也有很好的效果,一但在判定某文本的类别是需要将其余所有样本分别计算相似度一,就导致旦训练样本数目增加,相应的分类时间也随之大大增加。--15 基于商品轉征挖掘的在线评论有用性分类研究A*am??■3(?图2-.5k最近邻算法示例f-FileokNearestNeihborsalorithmg.2.5Exampgg一一决策树算法fW的主要思路是构建个树结构,树结构中的每个中间结点表示在个属性上的测试,而节点的分枝则代表相应的测试输出,每个叶结点代表的是类或类分布,一。图2.6是个简单的决策树示例,目的是将客户分为有无能力偿还贷款两种类型决策也、问题是选取测试属性和剪枝树算法的核。选择测试属性可W通过信息增益法、距离度量、卡方统计和相关度等度量方法;由于从根节点到叶节点的部分路径形成的类别归属一规则准确率可能较低。决策树实际上是种基于规则,所W还需要对此决策树进行剪枝、二。的分类器,有含义明确容易理解的优点,因此适合采用值形式的文本描述方法但当文本集较大时。,规则库会变得非常大和数据敏感性増强会容易造成过拟合问题拥有房产I可还是否结婚III/\否是/\ ̄,I月收入可(^^尝还II大于六寺于5k可W偿还不能偿还III图2.6决策树算法示例Fig.2.6ExampleofDecisionTreealgorithm--16 大连理工大学硕±学位论文口2]神经网络由众多的神经元可调的连接权值连接而成,通过调整权值使得能够预测、输入样本的正确类标号来学习,具有大规模并行处理分布式信息存储、良好的自组织一自学习能力等特点。BP神经网络又称为误差反向传播算法,是应用最为广泛的种网一27。,种监督式的学习算法.该算法在络模型是人工神经网络中的,其结构如图所示理论上可W逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。BP神经网络具有很强的容错性、髙度非线性、联想记忆功能和推理意识功能等,。但它的缺点在于网络结构没有成型的理论指导,可解释性差等mm嫁媛II廉簾图2.7BP神经网络模型F2.7BPNeuraNreig.letwokModl73一Cort[]es等人支持向量机由结构风险最小化理论发展而来,是提出的种解决高维、非线性和有限样本下的模式识别问题的机器学习方法,其基本原理如图2.8所示。支持向量机通过核映射的方法将输入空间的训练样本映射到高维的特征空间,然后在特一正则化参数来控制模型复杂度征空间中寻找个最优的超平面来分割样本,并通过引入和错误率。支持向量机在文本挖掘、人脸识别、基因检测和手写数字识别等领域得到了一些缺点广泛的应用,例如支持向量机算法对大规模训练样本难实,但同时也存在着施,对于多值分类问题的解决效果远不如二值分类问题等。--17 基于商品特征挖掘的在线评论有用性分类研究◎。、〇言尽支持商?0'NX.^0/40*/?A….’£s/.-A*^V1111*阔/?图2.8支持向量机原理示例Fi.2.8ThebasicrincileofSuortVec化rMachinegpppp2.5本章小结本章通过文献研究的方法总结了评论有用性研究方向的相关研究热点。首先介绍了评论挖掘领域的研巧内容,接着从中文评论和英文评论两个角度分析了商品特征挖掘的研究现状和仍然存在的问题,之后介绍了评论有用性的概念和评论者、评论内容、阅读者H方面的影响因素,最后分析了评论有用性分类的特征选择方法和目前流行的文本分类算法。本章内容不仅全面深入地梳理了和在线评论有用性相关方向的已有研巧内容和研巧成果,也为本文后续的研巧工作提供了很好的理论支持。--18 大连理工大学硕±学位论文3基于在线评论的商品特征挖掘随着电子商务的迅速发展,越来越多的商品在网上被售卖,而越来越多的消费者也选择在网上购物,。为了增加用户满意度和改善用户的购买体验各大电商网站都允许消费者在购买商品之后撰写在线评论来表达他们对已购买商品的意见,。目前用户己经逐渐习惯于通过评论来表达自己对己购商品的看法,同时对他人的购买提供有效的帮助,^在线评论的数量也在不断地增长,有些火爆商品的评论可式达到数千甚至上万个条。然而,不断增长的在线评论又对潜在消费者造成了很大的困难,他们难W阅读如此多的评论并从中收集对自己有用的信息,进而来指导自己做出正确的购买决策。因此,如何将用户关注的内容挖掘出来并呈现在用户面前就变得尤为重要。一商品特征作为评论中的重要信息,是消费者关注的具体内容。对于件有形商品来说,它的特征可W是外观,消费者对、内在质量、卖家的服务态度等各个方面商品的喜一"好可W拆分成对每个商品特征的喜好。例如某用户对己购买的手机有如下评论;屏"幕很清洗,内存够用,但是价格太高。该用户对该商品的评价被拆分成对S个商品特一一屏幕征、内存、价格的评价,对屏幕和内存的正面评价和对价格的负面评价形成了对该手机产品的整体意见。从消费者的角度来讲,如果能迅速识别出其他用户所关注的商品特征,阅读者就可W从中找到自己的关注点,进而去阅读所关注的商品特征的相应评价;从生产商和销售商的角度来讲,充分了解用户对商品的关注点可W帮助他们改善产品质量,改进营销策略。基于英文评论的商品特征挖掘的研巧展开较早,也取得了很好的成果,在挖掘的精度上已经达到了较高的水准,然而基于中文评论的商品特征挖掘还有很大的提升空间。1^中英文在语法和结构上的差异使得基于英文评论的已有研巧方法难^<直接应用到基于中文评论的研究工作中,国内学者在商品特征挖掘领域的研究工作还存在W下问题:一(1)与英文的预处理阶段不同,中文在文本挖掘的初始阶段有分词这重要步骤。在英文中,单词之间是W空格作为自然分界符的,而中文只是字、句和段能来简单划界。m一中文分词(ChineseWordSegentation)是指将个汉字序列按某种规则分成多个单独词汇的过程,它既对较长语句的进巧有效的切分,同时也对句中的单个汉字进行重组。目前中文分词的精度已经有很大提升,但在处理有较强领域性的文本时,分词的效果较差。(2)在由分词初步得到所有单词后,如何对其进行有效的剪枝是提取商品特征的关键环巧,还。既要把有可能是商品特征词的词语尽可能地保留下来要把那些明显的无关词语尽快剔除,这样才能给后续的处理步骤带来较少的工作量和较高的精准度。当前--19 基于商品特征挖掘的在线评论有用性分类研究一针对中文评论的研巧往往忽略这环节,便导致最后通过算法挖掘的商品特征跟人工标注的商品特征不一致。(3)在关键算法的选择上,基于中文评论的商品特征挖掘大多借鉴了基于英文评-论的相关研究,例如关联规则、tfidf等等,因为这些算法在处理英文评论时通常有着优异的表现。但中文语法和句法上的有其独特的复杂性,这使得简单的利用英文评论挖掘的相关算法无法得到相应的准确结果,。为了得到更优的实验结果就需要结合中文的特点对已有的算法进行改进。一针对W上几点不足,本文提出种新的商品特征挖掘方法,该方法通过扩充用户词典来提升候选特征的准确性,同时引入同义词表对候选特征有效地剪枝,此外还提出情感指数的概念并^心此作为从候选集中选择商品特征的依据,并从电商网站分别获取了手机和数码相机等四种商品的相关评论用于数值实验。实验结果显示该挖掘方法是可行的、有效的,不仅恨好地提升现有研究结果的准确性,同时也为商品特征挖掘领域提供了新的研巧思路。31.问题描述一给定电子商务网站上某店铺的某特定商品G,则该商品的原始评论语料为<=仁/.../.../k,,,,,,,;其中r为该商品的第条评论。为了得到商品的特征需要首。^。;},;一先对每篇评论进行分词和词性标注处理,对于分词和词性标注后的评论r,有词语集t‘=..Wr合wW.W,记!,,,w,其中h指评论中包含的第/个词语第个词{ww*语在评论r中的词频为诉由于商品特征词的词性特点,本文从分词后的词语中抽出,=■所有的名词作为特征候选初始集合&<<f,,,其中为候选集中的某,2[p}个候选特征词,记该词语在评论语料中的词频为诉。通过本文给出的特征挖掘方法对该''=特征候选集进行剪枝,:Tf...f。、排序和筛选将得到最终的商品特征集合,,2。};一巧"下面给出个简单的实例。某店铺所卖的hone5有如下评论:质量好,爸爸很喜""""=欢!,屏幕细腻爱不释手,非常好。。则该商品的原始语料库C质量好,。{""""。"=爸爸很喜欢!,!,,屏幕细腻爱不释手非常好。}。对于r质量好,爸爸很喜欢,"""。"。"""""=W=有词语集合,好,爸爸,很,喜欢,其中词语好,其在广质量},2==评论r中的词频诉1。将所有的名词提取出来得到商品特征候选初始集合&r质,"’’"""""’=量V唯爸,屏幕,并通过特征挖掘得到最后的商品特征集合r质量,屏幕。}{}-20- 大连理工大学硕±学位论文3.2在线评论分词一,分词是中文评论挖掘的第步,只有将整段的评论分割成不同词性的单词或短语一才能进行下步的特征提取工作。然而,绝大多数研究工作在分词的步骤只关注分词的l粒度iA及词性的标注等问题,往往忽略了用户词典的问题。通过研究可W发现,不同的用户词典对最终特征提取的差异有显著影响。""‘"这款手机的性价比是很高的!和分辨率不错,屏幕看着非常清晰!是两则关于手"""",可W明显看出和分辨率是用户评论的商品特征对象机的评价性价比。如果用户词,典中有这两个词,那么这两个特征就有很大的机会被挖掘出来但如果用户词典中没有"…""…"这两个词,这两个词被挖掘出来的难,而是将这两个词分成了性价比和分辨率度就会加大。针对这种问题,如果在分词之前将手机评价的热词添加到用户词典中,甚。至构建跟手机评价相关的领域词典,就可在分词的环节大大增加结果的准确性""为了验证扩充用户词典对结果的促进作用,本研究在某商品购买页面的大家印象""板块挑选和总结了相关领域的20个关键词,人工添加到用户词典中。大家印象板块集中了不同用户对该商品的主观印象,从中总结出相应的关键词很有可能出现在评论中。在分词的步骤中,利用分词软件ICTCLAS对原始评论语料C。进行分词和词性标注。一值得注意的是,分词粒度和词性标注都有两个级别,本文选择细粒度分词和级词性标注得到相应分词结果3.1CTCLAS。图为I软件示例。%NLPm^CTOAS205一GX1汝這妄务S黄遭古适品AHLP品揉弓1分周V-'—…論巧巧坛度-词沿姑H—广巧广巧小广大广iCTTOS没广忙巧说二织:(1:^二汲巧户词巧巧井"S辦Imm自巧应娩Immm|I|f关註i端巧#徽挂取S*一―.——-fl巧巧亲mmI植艾介泛I?八一W?一?。?-Jn"?其C--21 基于商品特征巧掘的在线评论有用性分类研巧图3.1ICTCLAS软件示例Fig.3.1ExampleofICTCLAS33.特征候选集提取从己分出的词中选择所有词性标注为名词的单词和词组作为商品特征的候选集&,对每个候选特征进行词频统计,并对该候选集做两次剪枝处理,即单字剪枝和同义词剪■枝。单字剪枝是将候选集5中的所有单字名词从候选集去掉,得到候选集。用户对商。&品特征的关注集中在两个字W上的名词或名词短语,因而将单字名词从候选集中剔除可W有效缩小候选特征集合。"""特征候选集中可能会存在表示着相同或相近意思的不同词语,例如礼品和礼"一物这样对同义词。通常希望挖掘出的商品特征能够分别表示商品的不同属性,彼此,因而需要对同义词进行合并和剪枝间在词意上有较大差别。为了实现这个过程,引入哈尔滨工业大学构建的同义词词林,如图3.2所示。A=a01A01人i人物人±人氏人选Aa02=1A0人类生人全人类A=」a01A03人下人员人[人TU食巧A=a01A04劳力劳动力工作者A=a01A05匹夫个人A=a01A06家伙东西货色厮愚子兔思子狗思子小子杂种畜生混並yu八蛋松/鼠辈小短:平A=a01A07者手匠客主子家夫翁汉员分子鬼货棍徒A=a01A08每人各人每位Aa=01A09该人此人A=a01B01人KKWK公巧黎^照庶K老r]抑趕化化灵生人布衣白T赤子取群巧齡首黎民百姓庶人百姓全民全员萌A=a01B02群众大众公众民众万众众生干夫图3.2哈工大同义词词林示例Fig.3.2ExampleofThesaurusbyHIT一一同义词词林中,组同义词里的每个特征都每个编号代表,于是可W将候选集s,一在同义词词林中查找到其所在位置,若有不同的特征在同个编号中出现,就认为送些不同的特征属于同义词一。考虑到同个词语可能出现在不同的编号中,本文规定:若特-22- 大连理工大学硕±学位论文’’::.<.、,?征词出现在编号幻中且特征词;.、(出现在编号6中1**4《/6,贝!]和(_7,,1,4()^,可也属于同义词。由此1^得到特征候选集中所有的同义词特征集合。一一在得到的每个同义词集合中,选择出本集合词频最高的特征词作为唯保留的特征词并剔除其他特征词,然后将本组其他被剔除的特征词的词频叠加到被保留特征词的一一词频上,。最后,在原始评论语料C中用本集合保留的唯特征词替代同集合中其他。被删除的特征词,同义词替代后的评论语料记为C,。剔除同义词后的特征候选集记为&,一一在接下来的步骤中还将会对二者做进步处理,如。下面给出个完整的剪枝步骤示例图3.3所示。"■’'""‘尺寸合适i始评论语料。:,大小正好,颜色也适合。"";i非常喜欢鞋的色彩,颜色尺寸特别搭。V./I提取所有名词±'?征候选集Se及相应词频:1"""""*""*""*"**2,,大小1,颜色2,鞋1色彩1|尺寸}、j^单字剪枝去除单字I词得到新的候选集.‘特征候选集Si及相应词频.:""""""大小"*"*叫1,颜色2,色彩1尺寸}j{从同义词词林中查找到同义词词组±_^:同义词组!""""""""尺寸,,,色彩{大小}颜色1{}JV.I剔除词频较小的同义词并做词频叠加得到新的候选集±、^\及相应词频、#征候选集S:,|(""""*!巧尺寸,颜色3}j{、I在原始评论语料中用保留的同义词替换被剔除的同义词得到新的评论语料i■""f评论语料。;尺寸合适,尺寸正好,颜色也适合。^"非常吉欢鞋的颜色,颜色尺寸特别搭。^33图.剪枝步驟示例Fig.3.3Exampleofpruning-23- 基于商品特征挖掘的在线评论有用性分类研充34.商品特征的选择一一上个步驟己经初步把无用的名词做了剔除,下步将对特征候选集&中的名词进一一行进步的操作和选择,最终得到商品的特征词。本步骤包括两部分,第部分考虑不二一,于是计算特征词的权重并排序同特征词有不同的重要程度;第部分利用第部分的排序结果,并考虑情感词和特征词之间的联系,提出情感指数的概念并得到最后的特征括掘结果。3-.4.1TFIDF一,而这些特征的重要程度是不样的商品有各种各样的特征。对候选特征的权重计算可W从很大程度上分析出哪些候选特征是真正的商品特征,又有哪些候选特征不属于-商品特征。本文采用TFIDF权重公式来计算每个候选特征的权重,并对所有的候选特征按照权重的大小进行降幕排序。74[]TF-IDF971a公式早在1年就由Slton在向量空间模型中提出,并在之后中做了各种改进模型的比较此后被广泛应用于特征权重的计算,。TF指的是词语出现的次数也就是词频(TermFrequency),IDF表不词语出现在了多少个文本中,称为逆文档频率(InverseDocumentFrequency),由于对不同形式的文本,TF和IDF有多种改进的形式,口5]TF--常用的几种IDF公式如表3.1所示。TFIDF公式综合考虑了词语出现的频繁程度.和密集程度,用作特征权重的计算有很好的效果。本研究中,每个候选特征f,的权重计算公式为:=xlo巧/+0011W如(.).g口),,表示特征.,,.其中扣f的词频n表示商品评论总数《表示特征f在多少篇文档中出现,,,过。在对每个候选特征计算完权重后,按照权重由大到小的顺序排列候选特征。3-表.1典型的TFIDF公式Tab-.3,1TypicalTFIDF化rmulas权重系统文档特征权重查询特征权重—tflogJ^Nn0.5//.(—nc.,0—.5+ow(ltfcnfx7')gI:max"?'/'lo為(/g!;、巧.rovecriy-0-StncfN!Q..)bxU+rnxxplogmax/n/--24 大连理工大学硕七学位论文xbx——bfjloglog打nN—nLL11bxx.bxp1log巧tf化'to沪!公(肿1vecorVtbxxbxx113.4.2情感指数一在从原始评论语料中获得候选特征集并对其进行处理后,最后个步骤就是从这些候选特征中选择出商品的特征。考虑到用户对商品的评论归根结底是对商品持征的评论,,而评论中用户的主观性评价词语(即情感词)往往出现在商品特征词周围因而本"’’文提出情感指数的概念,利用评论语料中的形容词和副词对商品特征进行选择。假设用户倾向于用情感词来评价商品特征,名词周围出现越多的情感词,那么就越有可能是商品特征,。情感指数表示用户评论商品特征时使用情感词(指形容词和副词)的多寡具体计算情感指数的方法步骤如下:""""""一C,。!,步骤:对评论语料W逗号、句号和叹号为分厢符号进行断句将,断句后的所有新句作为新的评论语料C;,步骤二:查找某候选特征,f在语料G中的位置P若该候选特征所在位置上下文中距离(字数)2W内(包括2)有形容词,则特征在该位置的情感标记为1,若没一有,则转下步;22),步骤H:继续查找该候选词所在位置上下文中距离W内(包括有无副词一若有副词且该副词与另形容词相连,则特征在该位置的情感标记为1,若没有则标记记为0;,,步骤四:将候选特征/在所有位置的情感进行加和再除该特征的词频//得到的数值即该候选特征的情感指数,即.=='/''123.M...32,,,,,矿(),/2>()用该计算方法得到每个候选時征的情感指数,并W此作为选择商品特征的参考。具体的选择步骤如下:一一,50步骤:将排列后的候选特征集分成两部分第部分是权重较高的前%候选特征,第二部分是权重较低的后50%候选特征;-2-5 基于商品特征挖掘的在线评论有用性分类研巧步骤二:对于权值在前50%的候选特征,保留情感指数M>^4的候选特征,并剔0.4除情感指数M;<的候选特征步骤H:对于权值在后50%的候选特征,保留情感指数M>0.6的候选特征,并剔除情感指数M<0.6的候选特征;步骤四:将之前两个步骤所保留的候选特征作为最终的商品特征。3.5数值实验与结果讨论为了验证本文提出的商品特征挖掘方法的有效性,从天猫商城分别下载了100篇iPhones手机MP3及纸质图书《冰与火之歌》的买家评论进、索尼数码相机、飞利浦行数值实验,。针对这四部分评论分别采用人工标注的方法从评论中识别并提取出所有的相应商品特征作为与实验结果的对照。在实验过程中手机评论为例),首先将包""""“"括性价比、通话音质、分辨率在内的20个关键词添加到用户词典中,再对所有评论进行分词和词性标注,然后用,接着提取高频名词并剪去单字名词和同义词名词TF-IDF计算每个词的权重,最后引入情感指数筛选出符合要求的词项作为产品特征。表3.2是实验前人工标注的iPhones手机特征同实验结果提取的特征对比。表3.2人工标注与实验提取的iPhones手机特征对比Tab.3.2Comparisonofmanualandexperimentalextraction ̄商品名称:iPhones特征数量人T标注特征集合服态度,礼品,物流,化价比,性能,手感,质45感,电量,价位,包装,运行,卖家描述,正品,配件,通话音质,上网,像素,功能,反应,质量,屏幕,音质,卖家态度,触摸,速度,分辨率,色彩,电池,信号,发货速度,拍照,尺寸,服务态度,外观,散热,画面,游化电影,售后,做工,款式,摄像头,系统,操作,服务 ̄ ̄实验提取特征集合客服态度,礼品,物流,性价比,性能,手感,质^感,电量,价位,包装,运行,卖家描述,配件,通话音质,上网,像素,功能,反应,质量,屏幕,速度,分辨率,卖家态度,色彩,电池,信号,尺寸,服务态度,外观,画面,游戏,电影,款式,摄像头,服务,东西,老板,实体店,上网速度,感觉,苹果,专卖店,通话,态度,整体,容量,-26- 大连理工大学硕±学位论文网购,人员,情况,货物iill为了评价本研究商品特征挖掘方法的性能,采用查准率(precson)、查全率(reca)-measure作为评价指标来综合考量,.和F。为了理解这H个指标的意义表33给出了这H个指标所包含的实验信息和计算方法。表3.3评价指标包含的实验信息和计算方法Tab.3.3Evaluationindexesandalgorithm人王标注出的特征数非人工标注的持征数实验提取出的特征数ab非实验提取的特征数C查准率P=a/a+b(recision)()p=查全率ecall)Ra/a+c(r()**F-measu=+RreF2PR/(P)从表3.3可W看出,较高的查准率要求实验提取的非人工标注的特征数尽可能少,而较高的查全率又要求人工标注出的特征中没有在实验中提取出来的数量尽可能少,这一一一两者是有定的冲突的,方的提高很有可能因其另方的降低,因此还需要引入F-measure来平衡查准率和查全率的关系,使二者都保持较高的水平。W手机和数码相,3.4和表3.5机为例,从这H个指标分别评价扩充用户词典步骤和剪枝步骤结果如表所示。表3.4扩充词典及剪枝步驟评价(手机)Tab.3.4Evaluationofexandindctionarandrunincellhonegiyppg(p)ABCD查准率63.3%63.6%64.8%70.0%查全率68.9%77.8%77.8%77.8%-measure66..F.0%700%707%73.7%表3.5扩充词典及剪枝步骤评价(数码相机)Tab.3iidiiidiitalcamer.5Evaluatonofexpandngctonaryandrunn(ga)pgABCD66..查准率.7%65.2%648%698%查全率74.3%76.9%76.9%76.9%-Fmeasure70.3%70.6%70.4%73.2%-27- 基于商品特征挖掘的在线评论有用性分类研巧表3.4和表3.5中ABCD分别表示不扩充词典但剪枝(A)、扩充词典但不做单字剪枝、扩充词典但不做同义词剪枝(C、扩充词典并剪枝(D)。从结果中可W看到,扩充词巧))典后H个指标都有显著的増加,这说明分词时如果能保留更多类似商品特征的候选特征,那么将很大程度上提升结果的有效性;两个剪枝步骤对查全率基本无影响,但是通-过去除兀余候选特征来提升查准率,进而提高了FmeasureW及实验结果的有效性,这说明从产品的候选特征词适当地剔除无用词汇是很有必要的,而其中的单字持征和同义特征是考虑的重点。本文将结果与文[12基于关联规则的评论特征选取结果进行比较。本文与文12]中][都用电子商务网站下载的手机和数码相机等四种商品的评论(具体评论内容不同)各100一致性一篇用于实验,尽管具体数据不同,但由于形式的,仍有定的可比性。依然用查-准率,查全率和Fmeasure作为评价指标,比较结果如表3.6所不。表3.6本文与文12结果比较[]巧b'3.6Resultscomparisonwi化paper[12]¥1数码相机^文[12文12文12文12][][][]本文 ̄查准率63.3%70.0%63.6%69.8%66.7%76.9%62.9%66.7%查全率68.9%77.8%73.2%76.9%82.4%81.1%91.7%76.9%F-measure66.0%73.7%68.1%73.2%73.7%78.9%74.6%71.4%3.6从表可W看出,本文对手机特征的挖掘结果在查准率、查全率和F值等指标上12都全面优于文,;[的结果说明本研究针对手机评论的商品特征挖掘是可行、有效的]本文对于数码相机特征的挖掘结果相较文12的结果在查准率和F值等指标上都提升明[]一显,在查全率上也有定的提升,说明本研巧针对数码相机评论的商品特征挖掘的有效12性;本文对MP3的特征挖掘结果相较文的结果尽管在查全率上有极少的差距,但在[]查准率和F值等指标上都提升明显,说明本研巧针对MP3评论的商品特征挖掘是可行、一12,有效的;本文对图书的特征挖掘结果相较文的结果在查准率上有但在[]定的提升查全率和F值等指标上都处于劣势,其原因在于图书属于体验性商品,用户对商品特征的选择更依赖于个人的体验,结果不像手机和数码相机只来得搜索型商品那样稳定。-通过比较可W看出,本文实验在查准率Fmeasure评价指标上大都处于、查全率和更优的位置,只有图书相关特征的查全率处于较低水平,可W认为本文提出的商品特征挖掘方法是有效的,。通过实验结果对基于网络评论的商品特征挖掘方法还有W下几点--28 大连理工大学硕±学位论文分析:(1)用户词典和分词工具对挖掘结果的影响是很大的,如果能在评论特征挖掘前。首先建立当前研巧的领域词典,将会大大改善挖掘的结果而对评论的分词W及词性标一,注的准滴性也关系着最终结果的好坏,同个词语在不同的上下文中有不同的词性准一确的区分并标注是此部分的关键点之。(2)初步提取出来的候选特征会含有大量的冗余,如何在保留真正商品特征的前提下将冗余的部分去除是个难点。本文指出的单字名词和同义词属于较为简单的结构,""""""其实还有很多复杂的情况,例如感觉、情况这种宽泛无意义的兀余特征,及货物、""这种看似相关却并非评论对象的冗余特征等专卖店。(3)本研巧关注的是如何自动地从评论中获取商品特征,但却无法忽视人的因素。评论中个性化的语法句法会影响特征提取的准确性,此类研巧更要求评论规范的结构和直接的语义表达;而人工标注特征的时候也带有很强的主观理解,不同的人对评论特征一定的差别的人工提取也会有。3.6本章小结针对网络评论的挖掘研巧能够指导实践,反过来促进电子商务的发展。商品特征挖一掘作为评论挖掘的重要组成部分。,有重要的研究意义本文提出了套新的商品恃征挖-掘方法,其中通过扩充用户词典、引入同义词表来挖掘商品候选特征IDF,并利用TF计算权重,且在最后考虑到用户情感而提出情感指数作为选择商品特征的依据。实验结果表明本文所提方法在前人的基础上有新的提升,对电子商务领域的具体应用也有现实的指导作用。此外,本文从商品特征的角度入手,给接下来的评论有用性分类工作提供了重要的参考。-29- 基于商品特征挖掘的在线评论有用性分类研究4基于商品特征信息的评论特征选择在对评论做有用性分类之前,需要从评论中挑选出对评论的有用性有显著影响的评论特征。这些评论特征可1^与评论内容相关,还可yA来自评论的发送者,或者取自评论阅读者的信息。在选择评论特征时,首先考虑的是要涵盖尽可能多的信息,因为评论有一用性的影响因素可能来自各个方面,多个角度的影响因素共同作用,才最终形成了则评论全面整体的有用性评价。当前英文评论研究的数据源主要来自美国亚马逊购物网站,如图4.1所示。美国亚马逊可W为研究者提供全面的评论信息,包括评论的发布时间、评论对应的产品信息、评论内容、评论者的个人资料等等,这样研究者就可W充分的利用已有信息挖掘出影响商品有用性的各种因素,进而选择相应的评论特征用于分类,最终得到的评论有用性分心类结果就有了较高的精度。部分研巧训练出的模型的分类准确率可W达到百分之九十处口引上。^WARNINGSI.II^§OOKSLEAD1IMBIIB,PopulardepartmentsThedressshop0的1of化e舶yWecome.lA!J?,'材■^'S?nS??wb.?.8i?P^£LJjj^.,…r/Ai,,"。.M'M4uit一WftAnAmWQKVitKSfhCpflniB?mbw图4.1美国亚马逊网站F...ig41wwwamazon.com目前针对中文评论资料的获取主要源于各大中文电子商务网站一,这些网站般不向,用户提供全面的评论信息大多数研究需要靠网络爬虫等工具来获取,而抓取的内容多是评论内容、评论等级、评论者阻等最基本的相关信息,如图4.2所示。如果仅仅从--30 大连理工大学硕女学位论文送样较少的信息中选择出评论特征,就无法涵盖更多的穀响因素,分类的效果也就相对较差,部分评论有用性分类模型的分类精确度还停留在百分之五十左右。一>,.^.巧i?若巧摄要死嫌验舶常,惑宏蜡就技弦不离有之前離小米織大家也需诗則留 ̄統几芭巧^意忘的冢价语空巧1孤子巧能,觀顾客让人備钱不変.下^;斌不会再鮮5雜了’’:铅;鞠遂輿型祕識賴錢:溃歇!辦m课谋爆产謡药太石衷持潑觀帮您懲驛銷稱麗淺巧错锻錢骚{玲戰袭猎鋪沉昏里*=6C史备).亩孩嚴,銳!]会幹巧鹽密德荀适續中賣類骑璋題不觀逸巧改譜谏化■症今猜觀产歲,歲詔)聲j^.'怒雜埋:T巧掠爾-造凑錄晚j峨鮮雜狂.萃,幾近補祭)啦禅職雜辦揖.纖豐I縱嶋销馈託因yJ一.離驾與诺駿搬妄哉盤範.雖常控或女薇麵禪離将强雜滤較後.人生化祀飄徽,岂号毅'.添好猿顯窜藥.聚漏:撒撒討潮刻疆萬辯萬価来谋帝嚇>!^^葉及號聚将励'.狂雖褲!殺疆殺縫潘骑^巧獨朝趨攜哀躬穀藉輕輕浩缓盤薇-齡错^遮憾殺德《藍!手in君着径巧,竊实賠搔.当然了悟就是晉着,麵巧抗用了,歲有点专I驗撼费.巧g你巧了谋斜惟网嚴:强熬侣电尖窝换了很潭泼-拒是今天測数到结瑚韩袖}〇.很心巧痕夺砸道,?是、’K',"'酱頻运宝-拽aoo韵粒顿劈东石编化着不会拉买华为约奈西,妈褐券烫定?富疆巧?漏至少巧患蟲齡:驚蠻金李匿龜)觀隙型:.,狡坏宣冢空瓷霞看效S畜苦惊黯刪州輔哦援看了那么安评检■樹n码規是会授霉小郝韦,芋杭应煎醫离淳;姑别废寅,,石巧窗每,否巧.据务夏i人液迫读宽很巧的化音木会技买华发鹤忘因图4.2国内电子商务网站评论区F-ig.4.2民eviewareaofEcommercewebsi化inChina本文根据己有的商品特征挖掘研究成果,提出基于商品特征信息的在线评论恃征选择,,即通过挖掘商品特征中蕴含的评论有用性影响因素来选择评论特征再将这些特征加入到评论有用性模型的构建中。在研究者获取的评论信息严重不足时,该方法可W很好的解决评论特征选择和评论有用性分类问题。本研巧选择的用于有用性分类的评论特4.3征如图所示,并给出相关定义如下:=?对于某商品G的评论集合Crr.....(的第A条评论),有.7rr*为集合中,,,,,(|2;。}=戶i^评论特征集合i^FCFfFOF,其中CF为基于评论内容信息的特征,为基于商{,,}品特征信息的评论特征,OF为其他评论特征。--31 基于商品特征挖掘的在线评论有用性分类研巧评论特征集合':!I-1:评论内容信息商品特征信息;评论长度商品特征数量其他信息:句子数量句平均特征数量有无堇复评论平均句子长度特征情感词数量错别字数量商品评级平巧特征权重图4.3评论特征Fi.4.3Reveweaegifturs4.1基于评论内容信息的评论特征评论内容是用户直接接触到的信息,如果没有评论内容,那么评论有用性就无从谈起,评论对消费者和销售商的重要影响也就没有了意义。从评论内容信息的角度,本研究选取了评论长度、句子数量、平均句子长度和商品评级等评论有用性的影响因素作为,评论特征并给出相关定义如下:基于评论内容信息的评论特征CF二辦/卿卿,其中的,,A如为评论长度此画为句子数量卿为平巧句子长度,projevel为商品评级。4.1.1评论长度评论长度作为评论内容信息中最显而易见的因素,对评论有用性有着显著的影响。,评论中包含的信息量就越多人们普遍认为评论越长,其中对评论阅读者有正向影响的一有用信息也就越多,4.4中的两则手自然评论有用性也就更高,第。如图机评论条评论只有H个字,只是简单的表达了对该手机的总体看法;第二条评论相应完整很多,既有对商品的总体评价,也有对商品具体信息的描述。评论的阅读者看到这两则评论时,会倾向于提供更多信息的第二则评论而忽略第一则评论。尽管评论字数越多就越可能提供更多的信息,然而评论是否越长越好是个值得讨论的问题,因为用户的理解力并不是一成不变的,过长的评论同样可能导致用户的理解力下降,从评论中获取的有效信息量反而有所降低。-32- 大连理工大学硕dr学位论文一接京西不宿,有圧规发票,外面连里裘玫珠金睹写他疲色责100,这里■致至活了半个巧,未遠现任何不窝,4G信号就是好■64G巧存再也不巧涅如^点照枯贸满了’应有玫魂金録疆超巧,替看趣富巧.再回头看看从前的5,觉得巧小,绿玩具,巧閉遣得绞iR剔很好巧-Msy图4.4两则手机评论Fig.4.4Tworeviewsofcellphone本研究给出的评论长度计算方法为lenth=/word4.1gcoi/n()()即剔除评论中的所有标点符号,计算评论中的文字数量。考虑到部分消费者在评论中喜,然而这些标点并不含有任何有用的信息,因而将其剔除欢用大量标点符号。4.1.2句子数量一人们在用文字做记录时,会用标点符号来对句子进行分隔,分割后的每个句子表一达个相对完整的内容。不仅文字的长度可^>表达所含信息量的多少,文本中句子的数量也可W表达信息量的多少,。假设用户在商品评论的撰写中不会进行重复表达那么评一一论中的每句话就表示了商品的某方面的独立信息,评论中的信息量就和评论中的句子数量呈线性正相关。尽管用户在实际的评论撰写过程中会无可避免的用几句话来说明一一同,但句子数量和评论的信息量仍有定的关系,件事。因此本研究选择句子数量作为对评论有用性有重要影响的评论特征。在具体计算句子数量时,本研巧考虑到评论者对标点符号使用的随意性,无法简单""""的用逗号,或者句号。来统计,而是将评论中的所有标点符号用空格来代替,在将相邻的空格进行合并,最后根据空格的数量来得到句子数量,即=sennumbercozm/sace4.2(p)()_一.5下面将给出例来具体说明句子数量的计算方法,如图4所示。-33-‘V,- 基于商品特征挖掘的在线评论有用性分类研究是正品哦!!!性能很稳定,没有出现过死机和过热的情况,不论手感还是质感,,这个价位相当划算都是相当的不错电量还很耐用,比专卖店的便宜好《,而且物流很快!!!,卖家的服务也很好,总之满意r将所有标点替换成空格J是正品哦性能很稳定没有出现过死机和过热的情况不论手感还是质感都是相当的不播电量还很耐用泛个价位相当划算比专卖店的便宜好多而且物流很快卖家的服务也很好总之满意'i合并空格i是正品哦性能很稳定没有出现过死机和过热的情况不论手感还是质感都是相当的不错电量还很耐用送个价位相当划算比专卖店的便宜好多而且物流很快卖家的服务也很好总么满意i统计空格数量i该评论的句子数量sennumber为9_图4.5句子数量计算示例F.45Examlllibei.peofcacuat打sentencenumrgg41..3平均句子长度平均句子长度是指评论中句子的平均长度,表示着评论者的书写习惯:有的评论者一喜欢用个长句子将信息尽可能的表达出来,有的评论者习惯于用多个较短的句子来描述商品和表达个人观点。己有研究表明,较长的句子有着更加复杂的语法和句法结构,会对阅读者对评论信息的理解造成一定的困难,而这种理解上的困难随着句子长度的増加而变得严重。因而从评论阅读者的角度来讲,评论中的每个句子应当尽可能短,这样便于阅读者理解评论中的内容而不用花过多的精力在分析句子结构和拆分句子语义上。本研巧对平均句子长度的定义是评论息长度和评论中句子数量的比值,即=numbeavelengthlength/senr(4.3—_)41.4.商品评级商品评级指的是用户对商品的总体意见和情感倾向,往往在评论撰写么前就给出,一般与商品评级一致之后的评论所表达的情感。有的电子商务网站将商品的等级设置为""""""""好、中、差,用户可根据所购买商品的实际情况给切相应的好评、-34- 大连理工大学硕±学位论文""""5中评和差评;还有部分电子商务网站允许用户用打分的形式来对商品评级,51。分最高,1分最低,从分到分表示用户对商品的满意度逐渐降低一不同的条件下,不同的商品评级对评论有用性的影响也不尽相同。般来说,消费者更愿意选择有更强极性的评论来阅读,因为这些或正向或负向的评论里含有用户对该商品更为强烈的情感,;对于存在大量正向评级和极少量负向评级时负向评级变得更为重要,,。相对中立的商品评级表示了评论者的客观性对该商品有着更理性的意见虽然评论无明显的极性,但可信度会更强。综合上述分析,本研究W淘宝网的商品评级标准为例,对商品评级的计算方式为'3评,好/eve/=<2评(4.4,中)_l差i平,i42.基于商品特征信息的评论特征之前的研究内容已经提到过,影响评论有用性的重要因素可W从评论发送者(撰写者),、评论内容、评论接收者(阅读者)H个方面来考虑如果针对这H方面提供了充足的有效信息,那么在选取评论特征时就可W对应这H部分分别选取。当电子商务网站的评论系统无法提供如此全面的内容时,就需要研究者从仅有的评论内容上深入分析评论有用性的影响因素,进而选取新的评论特征。由于大多数情况下研究者是无法获取最全面的评论信息的,因而从新的角度分析评论内容,选取影响商品有用性的评论特征就58有了很强的现实意义1]。部分研究者首先将评论的体裁定义为评论的主观性和客观性并一从这角度分析对评论有用性的影响,但最终仍可W归于情感极性的因素,而且评论主客观性分类结果的质量可能会进一步影响评论有用性的分类质量。用户对商品的评论实质上是针对每一个商品特征的描述和观点表达,如果某条评论只有对相应商品的模糊而概括的总体性评价,那么这条评论的有用性就比较差,:相反如果这条评论内容里包含了其他潜在消费者关注的各种各样的具体商品特征,并有与这些特征对应的具体描述和体验,那么这条评论的有用性明显要更强。通过上述分析,本研究从商品特征信息的角度来选取相应的评论特征。,、句平均特征数量从商品特征信息的角度本研究选择商品特征数量、特征情感词数量和平均特征权重四个评论有用性影响因素作为评论特征,并给出相关定义如下:基于商品特征信息的评论特征尸F={.斥a,其中为商品特征数量,为句平均特征数量,H’为特征情感词数量,avee!/为平均特征权重。_切-35- 基于商品特征挖掘的在线评论有用性分类研究4.2.1商品特征数量评论中商品特征出现的数量可W从一定程度上衡量该评论所包含信息量的大小。出现的商品特征越多,表明评论者对商品的评价越具体、越细致,;相反的如果评论中没有出现商品的任何特征词,就说明该评论过于笼统,无法为评论阅读者提供详细而有用的信息。对于如下的两条手机评论:"",,电池耐用,物流也相当快手机质量相当不错屏幕亮眼。"手机挺好用的",我很喜欢,大家都说好,W后还会光顾的。一""""""W上两条评论有相同的评论长度,但是第条的评论包含了质量屏幕、电池""和,而第二条评论没有任何的商品特征出现物流等商品特征,只是说手机好用,大一家很满意,。阅读者看到送样的两条评论时会更倾向于阅读第条评论,因为阅读者自己关注的商品特征更有可能在第一条评论中描述,而对送些特征的描述很有可能对评论一阅读者最后的购买行为产生决定性的影响,,。相比来说第二条评论虽然长度致但因,因而有用性相对较低为所含信息量较少。本研究给出的商品特征数量计算方法为二耗aearmmhercom!tiire4.5f_()()一一值得提的是,,对于评论中重复出现多次的商品特征词只记次因为商品特征数量记录的是评论中出现了多少个商品特征,而非出现了多少次商品特征。4.2.2句平均特征数量句平均特征数量指的是一条评论中平均每句话包含多少商品特征词。阅读者不仅希一望评论中包含的商品特征越多越好,同时也希望评论中的每句话包含的商品特征越多越好。研究者普遍认为评论中无用的句子越少越好,也就是说评论中每句话的有用性越37一一[1高,则评论的有用性就越高。评论中每句话平均出现商品特征的数量就可从定程度上说明句子的有用性高低,进而也可W说明评论整体有用性的高低。本研巧提出的句平均特征数量计算方法如下=avenumbereanumber/sennumber_f__4.6。()二/featu/cmw(re)cowwf(sace)p它是一条评论中的商品特征数量与句子数量的比值。4.2.3特征情感词数量entii情感词(smentwords)又称意见词(opinonwords),指的是能够传达正向或""""""""负向情感的词语,例如好和漂亮这样表示正向情感的词语W及无聊和差-36- 大连理工大学硕±学位论文一这样表示负向情感的词语。大多数情感词是形容词,因为形容词般用来描述事物的性质、状态、特征或属性,因,在这种描述中很可能带有主观情感;副词也可W是情感词一""为副词通常用来修饰动词或者形容词,表达种程度的概念,例如非常这样的副词;""""一一有些动词也可W用来表达个人的情感,例如喜欢和讨厌这类情感词;名词"一般很少用来作为情感词,,但是在某些语境中名词同样可W作为情感词例如你就是"""一一词就表达了种喜悦的情感个天才中的天才。情感词的词性有较强的复杂性,,而且很多时候和语境密切相关因而情感分析作为一M77t,3个重要的研究内容被广泛关注。而在大多数非情感分析方向的研巧中,研究者为了简化流程通常只把形容词作为最主要的情感词引入个人的研究工作。在本文中,特征情感词指的是围绕在商品特征周围的形容词,这些形容词往往被评论者用表达对相应一商品特征的意见和看法。W下是条已经过分词和词性标注的评论:"运/rzv款/q数码/n相机/n的/udel镜头/n很/d出色/a,/wd功能/n也/d很/d"?全/a,/wd我/n觉得/v非常/d棒/a。/wj"""这是一和"条关于某款数码相机的评论,评论中提到的商品特征有镜头功能,包""""""""""含的情感词有出色、全和棒,然而只有出色和全是用来形容商品""特征的,而棒只是普通情感词。,因而这两个词被认为是特征情感词根据W上特征情感词的判别方式,本文给出该评论持征的计算方法如下=—smnumbercountadithead.is2distanceneararoducteature4.T(j)f(_,fjp)一当某形容词临近某商品特征词且距离(字数)不大于2时,该形容词被记为特征情感词计入求和中。424平..均特征权重商品特征数量反映的是评论中商品特征的多少,而平均特征权重反映的则是评论中一.商品特征的质量。在上章的研巧中,关于商品特征权重的问题已经被提及,不同的商一品特征有着不同的重要程度重要程度的方式。在本章节中,,而特征权重就是衡量这TF-特征权重的计算方法沿用了如下基于IDF的权重计算公式Xlo内/00147g+..K(巧)()其中/表示将征的词频,n表示商品评论总数,n.表示特征在多少篇文挡中出现过。?,;评论中的不同商品特征按其重要程度被赋予了不同的权重,为了用这些特征权重来一衡量评论的有用性,本研巧提出了平均特征权重这评论特征,它通过对评论中的所有一特征进行加权平均这方式,具体计算方式如下,得出该评论的重要程度=aveweight4乂()-37- 基于商品特征挖掘的在线评论有用性分类研巧L:i某条评论的平均特征权重等于该评论中所有特征权重的加和,再除、商品特征数量。4.3其他评论特征本文综合前人的研究提出了基于评论内容信息的评论特征,同时考虑到商品特征信息对评论有用性的影响提出了相应的评论特征,然而还有其他因素可W对评论的有用性产生重要的影响。从评论可读性的角度来说,评论中的错别字数量会对阅读者理解评论信息产生严重影响;从评论者动机的角度来说,完全重复的评论暗示着评论者消极评论,昔至是蓄意提升商品评论量的网络水军,。从这两个角度本研巧选择错别字数量和是否,有重复评论这两个评论有用性影响因素作为评论特征并给出相关定义如下:=?其他评论特征0F胃〇1??766/%7巧),其中为评论中的错别{_字数量,指该评论在评论预料中是否有重复评论。4.3.1错别字数量,顾名思义是指错字和别字,错别字。错字指的是无中生有的字往往是在书写的过"造"一程中将正确的文字写错了笔画、部首或者字体结构,从而出了个在字典中不存,在的字;别字指的是使用过程中出现了张冠李戴的情况别字是在字典中存在的汉字,一只是在行文时本该用某个字却写成了另外,于是出现了错误的词语搭配个字。错别字的出现、,原因有主观的也有客观的,主观原因是自己不重视,认字不细屯原因是;客观汉字本身很复杂,难认、难写,其危害、难记。错别字在阅读中会产生严重的不良影响是不容忽视的。评论中的错别字会让评论内容产生歧义,使评论的可读性变差,同时也让阅读者在理解评论内容上出现很大的困难,因为阅读者需要花费很大的精力去人工矫正和还原正确评论。即使两条评论的内容信息完全相同,但文字正确、语言通顺的评论明显要比满一是错别字的评论有更高的有用性,因而本文提出错别字数量这评论特征来衡量评论有用性,具体计算方式如下=number<wrowords4.9wroco?n?()_(_)4.3.2有无重复评论不同的评论阅读者对什么是有用评论的会产生各种不同的观点,但对于什么是无用一一评论的却很可能会有致的见解,因为有些类型的评论对所有的阅读者来说都是无用的,即便阅读者对评论对有用性的理解有很强的主观性。对于评论系统中出现重复的评一论,可能是由W下原因导致的,,直接复:第某消费者不愿意给出自己对商品的评价--38 大连gx大学硕±学位论文制其他用户的已有评论作为自己的评论发布;第二,商家雇用网络水军来对自营商品提供大量的正向评论,用[^诱导消费者的购买行为,而这些评论很多都是重复的。一条原因导致的重复评论不论是W上哪,都无法为消费者提供准确的商品信息和可信的个人评价,,因而都应被归为无用评论。所W本研究将有无重复评论设为影响评论一有用性的重要评论特征之,具体计算方式如下I有重复评论,.=/4repreview(.10\)1〇,无重复评论若某条评论在评论语料中存在重复评论则设置为1,若无重复评论则设置为0。4.4本章小结影响评论有用性的因素众多,W往研巧大都从评论发送者、评论内容和评论接收者一H方面来考虑,然而各大电商网站的评论系统般不提供如此全面的评论信息,因而本文另辟媛径,从商品特征信息的角度来挖掘评论有用性的影响因素。本章选取了前人研巧中具有代表性的评论特征,同时选取了基于商品特征信息的新特征,例如商品特征数量、平均特征权重等等,这不仅为接下来的评论有用性分类研究提供了分类依据,同时也为未来的评论特征挖掘工作提供了新的思路和参考。-39- 基于商品特征挖掘的在线评论有用性分类研究5基于TSVM的评论有用性分类在电子商务中,在线商品评论能显著的影响消费者的购买决策和制造商的营销策略。然而在线评论数量的激增W及评论质量的不均给潜在消费者区分有用评论和无用评论带来了很大的困难,进而减弱了在线评论系统所产生的积极影响。通过文本挖掘的方法将大量评论按其有用性自动分为有用评论和无用评论能够很好的解决W上问题,因而在线评论有用性分类作为一个有着极强现实意义的研究领域引起了国内外学者的关注。针对英文评论的有用性分类问题在最近十年被很多学者深入研究,并取得了显著的一stw成果,,。部分研巧充分分析影响评论有用性的可能因素给出相应的假设并建立模型然后通过实验验证己有假设的正确性,调整W后得到最终的有用性分类模型,对评论有353用性影响因素的分析对模型的分类结果会产生很大的影响t;还有其他的研究者用机器一学习和数据挖掘的方法,将部分评论作为训练数据来学习评论分类模型,然后再用另部分评论作为测试数据来检测学习出的分类模型的表现,学习算法的选择和优化是影响分类效果的关键因素,。针对中文评论有用性分类问题的研究相对较少且大多数集中在评论特征的选择上,例如石旭研究了影响体验型商品评论有用性的评论特征;只有极79f3少数研究者将研究重点放在评论分类算法上,例如金丽君运用支持向量机算法对评论的有用性进行二值分类。综上所述,针对中文评论的有用性分类研究还有很大的进步空间,特别是学习分类模型的相关研巧跟国外针对英文评论的研究还有较大差距。本章分析总结了当前国内中文评论有用性分类研究的不足,并结合国外相关研巧结果,提出了基于直推式支持向量机(TransductiveS叩portVectorMachine,TSVM)的评论有用性分类方法。本研巧首先给出评论有用性分类的问题描述,然后对评论有用性进一行恰当的定义,W此定义作为标记评论有用性的标准;之后将介绍半监督的学习方法-直推式支持向量机,并分析其在评论有用性分类研究中的重要价值;最后将己有的评论数据用于数值试验,通过半监督学习得到评论有用性分类模型,并评价分类模型的性能。5.1问题描述一G给定电子商务网站上某店铺的某特定商品,则该商品的原始评论语料为C=k......r,,,,r,r,,其中为该商品的第条评论。对部分评论进行有用性的标记,,t?}k;"""""-=^-有用评论标记为1,无用评论标记为1,标签集合表示为Ll,。标记为有{4-40- 大连理工大学硕±学位论文"++++""C=评论集合记为rr...r,用的评论集合记为,标记为无用t,,,,p}{+二'〔广得到有标签评论集合记为^,。其他无标签评论构1i[}"="=/...^。护巧〇巧,其中基成集合旬^2,,。-用于分类的评论特征记为化托,,1^。}{’:于商品信息的评论特征(1护=?&>567?????66^;<316/6/姆&7^0/6化/,每个特征项分,,,梅姆__/_}别表示评论长度、句子数量、平均句子长度和商品评级;基于商品特征信息的评论特征?=/F,kjavesennwnZwave每个特征项分别表不商品{,_/____特征数量、句平均特征数量;、特征情感词数量和平均特征权重其他评论特征■=■WewwranMm6errere,每个特征项分别表不错别字数量和有无重复评论QP。,{_f__}"^'综合科上内容,得到本研究的输入信息为{左,(:111广tUCi,CFUfFU<3F},用这一些输入信息训练出在线评论有用性分类模型,可根据其各项/,对任意条在线评论/评论特征将其分为有用评论或无用评论,具体计算方式如下有用(+1),评论店有用的。、fK1、=-用(1),否则k5.2评论有用性定义目前关于评论有用性的研究重点是评论有用性的影响因素,可从消费者的视角来,分析,也可W从生产者的角度来考虑,影响因素既包括评论内容本身也包括评论发送一一一者信息等其他相关内容,然而大多数研究者都忽略了个问题什么样的评论是有用的,5.1,因而。由于部分电子商务网站(如亚马逊)的评论系统有投票功能如图所示研究者倾向于用各条评论的历史投票数作为划分评论有用性的主要依据;然而对于没有投票功能的电子商务网站(如天猫)就无法用评论的历史投票数来判定评论的有用性高低,更无法仿照评论系统的投票方式邀请数千名用户来对众多的评论分别投票,这时就需要用人工标注的方式来获取评论的有用性。德沒嫁燒會很好的亲东呈書量miinCKM于2日16年3月24巨y己《*柏亞i送餘逛滿,....,想呂着?居33很富巧看义了張島也不爸是,司吕资愿民串室图培渠秀意。.’?12育3吗?国迅个人泛恩化江沾有导店祭释这EI是!否慶育M用谓巧!:图5.1评论系统投票功能示例Fi.5.1Examleofvotnfctioninareviewss化mgpiguny--41 基于商品特征挖掘的在线评论有用性分类研究很多关于评论有用性的研究也选择人工标注的方式来确定评论有用性的高低,但是这种方式得到的有用性较为主观一,对于同样条评论,有的标注者会认为它是有用的,而另一部分标注者会认为它是无用的。出现这种情况的原因在于人们对商品评论有用与一否的评价标准依赖于个人经验,、背景W及他们在电子商务中的角色。为了解决这问一题,后来的研究者计算不同人工标注者对同评论语料标注的评论有用性的相似度,若大于某个阔值则认为本次标注是有效的,然而这种方法并没有从根本上解决主观性带来的人工标注差异。本研巧总结了现有人工标注的问题,认为在进行人工标注前应明确给出有用评论和无用评论的定义,人工标注者按照己给出的定义对评论语料进行人工标注,这样就大大减少了人的主观性所带来的负面影响,下面本文将给出有用评论和无用评论的明确描述。5.2.1有用评论一则有用的评论既要从内容上对阅读者提供有用的信息,还要在形式上让阅读者易于理解,。综合其他研巧工作对评论有用性影响因素的分析结果和本文提出的新理论本研究对有用评论的定义如下:一(1)条有用的评论要尽可能的和所评价的商品信息密切相关,评论中的每句话一都是用户对该商品的描述而非其他不相关的内容,。同时条有用的评论还要有综合的,不能简单地复制他人的描述或评论个人体验和评价。—(2)条有用的评论要尽可能地涵盖更多商品特征的具体描述和评价内容,不能一只做笼统的总体评价,例如条有用的手机评论要包含大量的操作系统、屏幕、电池、重量等方面的信息,不能仅仅提供对手机的总体意见。—(3)条有用的评论基本没有拼写和语法错误且主要由短句组成,尽可能使用熟悉的单词和短语,每句话的长短也尽可能适中,这样可W保证评论较强的可读性,便于阅读者理解评论信息。通过上H条描述,本研巧从内容的相关性、具体性和形式上的可读性对有用评论进行恰当的定义,本研究重点关注评论内容所包。同他人研巧对评论有用性的概括相比含的信息,这是评论阅读者在电子商务网站的评论系统中接触到的最直观最重要的信息。5.2.2无用评论同有用评论的作用相反,,无用评论无法为评论阅读者提供指导性信息甚至还会误-42- 大连理工大学硕±学位论文,导潜在消费者的购买决策。对于无用评论,依然要从内容和形式两个方面进行评价本研巧给出无用评论的描述如下:一(1)条无用的评论其内容和所评价的商品关联性不强,同时也没有对用户关注的商品持征做具体的使用体验的描述和评价。2—()条无用的评论包含过多的拼写和语法错误,,大大降低了评论的可读性令评论阅读者花费过多的时间在评论基本内容的理解上。—(3)条无用的评论可能是对他人评论内容的直接复制,并没有提供个人对所购买商品的评价一;如果条评论包含明显和其他用户描述严重不符的恶意评价,那么这条。评论同样是无用的,因为它会误导评论阅读者对该商品的客观评价W上对无用评论的描述综合了评论内容上的相关性和评论形式上的可读性,同时考虑到了网络水军对用户的误导作用,基本完整的概括了他人研巧中对无用评论的理解和定义。53.评论有用性的半监督分类算法在认识到评论有用性分类的理论和实践意义后,相关研究者开始尝试用机器学习ML一(achineearaing)的方法来解决这问题。机器学习涉及统计学、概率论、算法复杂度理论等多领域,是关于理解与研巧学习的内在机制、建立能够通过学习自动提高自身水平的计算机程序的涅论方法的学科。按照学习形式的不同,机器学习分为监督学习(SupervisedLearning)、无监督学习(UnsupervisedLearning)和半监督学习一Sem-Suervseearnn)。(ipidLig监督学习是从标记的训练样本来推断个功能的机器学习一任务,,,监督学习算法首先分析该训练数据然后产生个推断的功能最后再将其用于一映射出新的实例。同监督学习方法相反,无监督学习是从无标记的训练样本中推断个功能,而半胳督学习则综合了监督学习和无监督学习,利用少量的有标记训练样本和大量的无标记训练样本来进行机器学习。P2,sw现有研巧大多用监督学习的办法来训练评论有用性分类模型,然而这种方法需要提前对大量的训练数据进行有用性的人工标注,不仅人工标注的准确性无法保证,同时也会消耗大量的时间和精力。因此,本研究利用半监督学习的方法训练评论有用性分一类模型,,在极大地缩短了数据的预处理时间的同时也进步提升了分类的精确性。5.3.1半监督学习方法半监督学习方法可W解决监督学习中会出现的时间消耗大和可扩展性差等缺点,常(-Suse用的半监督学习方法有半监督支持向量机SemipervidSVM)、基于图的半监督学-rah-based-习(GpSemiSupervisedlearning)和协同训练(CoTraining)等。-43- 基于商品特征挖掘的在线评论有用性分类研究一常用的半监督支持向量机是S3VM,它基于低密度假设,试图找到个低密度的分界线,也就是更倾向于决策边界穿过特征空间的低密度区域S3VM的具体方法是在原。SVM一来的的基础上添加两个对未标记的数据点的限制,其中个限制是假设未标记的一点属于类别,计算它的错分率,第二个限制是假设未标记的点属于类别二,同样计算该点的错分率一。最终目标函数则计算两个错分率中较小的那个。S4VM对传统的S3VMS一进行了改进,与3VM只关注个最优的低密度分界线不同,S4VM将法意力放在多个可能的低密度分界线上。该算法对S3VM提升作用在于,在已有少量有标签样本和大量"",可能存在着多个无标签样本的前提下间隔较大的低密度分界线,在有标记样本数量较少的条件下很难决定哪个是最好的。除了这两种半腔督支持向量机之外,还有更强SVM一调直推式概念的T(直推式支持向量机),不同于般归纳式的支持向量机,TSVM只考虑某个特定的测试数据集,试图最小化该测试集上的错分率来达到半监督学习的目的。基于图的半监督学习方法利用有标记和未标记数据构建数据图,并且基于图上的邻接关系将标记从有标记的数据点向未标记数据点传播。根据标记传播方式可将基于图的一半腔督学习方法分为两大类,类方法通过定义满足某种性质的标记传播方式来实现显一式标记传播,例如基于高斯随机场与谐函数的标记传播、基于全局和局部致性的标记一传播等;另类方法则是通过定义在图上的正则化项实现隐式标记传播,例如通过定义,强制预测函数对图中的近邻给出相似输出流形正则化项,从而将标记从有标记样本隐式地传播至未标记样本,。基于图的半监督学习方法有良好的数学基础但由于学习算法3的时间复杂度大都为0(n,故难W满足对大规模未标记数据进行半监督学习的应用需)求。一C-Trainin也是og种常用的半监督学习方法,这种方法要求数据能够从不同的角度提取出两组不同的特征一,这两组特征能够分别进行训练和分类,这就意味着可W用同C-oTraiin的数据需要满足W下两个假设份训练数据构造出两个分类器n:。使用g方法一一第个假设是说,将同份数据从不同两个方面的特征进行分类应该得到同样优秀的结一二-,Tii果:第个假设是说从同个数据提取的不同特征之间应该是条件独立。Coranng算法的主要思想是,每次循环,从有标签数据中训练出两个不同的分类器,然后用这两个分类器对无标签数据进行分类,然后把可信度confidence)(最高的无标签数据加入到有标签数据集中,继续循环直到无标签数据集中没有数据或者达到循环最大次数。5.3.2TSVM算法介绍一TSVM在上小节中已经介绍过在半监督学习中有着广泛的应用,因此本研究用其-4-4 大连理工大学硕±学位论文对评论有用性模型进行训练。TSVM的有效学习是非常重要的,其具体的学习过程如下:(1)TSVM根据指定的影响因子C和C%首先利用训练数据中的带标签数据进行监督学习一,得到个比较原始的样本分类器。按照某种规则设定训练集中无标签数据中’一,并指定个训练集中无标签数据样本的影响因子C。正负样本的比例temp(2)TSVM用得到的样本分类器对训练集中的无标签样本重新分类,根据训练出的样本分类器对无标签样本进行类别的判定,按上个步骤设定的正负样本比例标记为""""有用和无用。一G)用上个步骤得到的经过重新标记的训练集对模型进行重新训练,得到新的样本分类器,。两个标签值不同的训练样本进行标签符号的替换使得优化问题的目标函数值获得最大下降,直到找不出满足交换条件的样本为。反复执行训练样本标签的变换止。’’4一()均匀増加未标记样本的影响因子C,,直到Ctem的值并重新执行上步骤tempp>C时,TSVM的学习结束,最终得到性能优异的半监督分类器。用TSVM算法对有标签数据和无标签数据进行有效的学习,最后便得到评论有用性的分类模型。本研究所用到的数据信息、实验过程W及实验结果的描述和讨论将在下一节具体介绍。54.数值实验与结果讨论为了验证本文提出的基于直推式支持向量机的评论有用性分类方法的有效性,本研究从天猫商城下载了500篇iPhones手机的买家评论进行数值实验。本研究首先根据己一提出的评论有用性定义对所有评论进行有用性标注,具体方法为分别对每条评论进行区间为0到10分的评论有用性打分,之后将所有的评论按其得分进行降幕排序,前50%""""+-为有用评论,标记为1,后50%为无用评论,标记为1。在人工标注有用性完成之后,本研巧对每条评论的10项评论特征值进行合理的统计,部分统计结果如表5.1所示,。至此数据的预处理阶段基本完成。表5.1评论特征值统计结果示例Tab.5.1Calculationofreviewfeaturevalves ̄ ̄ ̄ ̄评论句子平巧句商品特句平均平均特特征情感错别字有无重长度数量子长度任等级征数量特征数征权重词数量数量复评论 ̄S513^3r〇而100082117.45390.824.14112090109290.95901-45- 基于商品特征挖掘的在线评论有用性分类研巧60115.45380.733.0790077117190.823.89710500一本研究将条评论分成两部分,第部分的300条评论作为训练数据,其中40条有标签数据,260条无标签数据;第二部分的200条评论作为测试数据,用来全面检测评论有用性分类模型的表现。为了用直推式支持向量机算法进行半监督的分类模型学一i'ght工具"ghtho习,本研究采用SVM这。SVM由康奈尔大学计算机科学系的TrstenJoachims教授开发,目前的最新版本是6.02,该工具需要在dos环境中运行。该工具可W解决常见的SVM学习问题,W及由传统SVM扩展的RankingSVM、虹ductiveSVM"^t和TransductiveSVM等各类问题。接下来本文将分步骤详细说明SVM是如何用TSVM算法解决评论有用性的半监督分类问题的:""(1).d在运行程序前,要将训练数据和测试数据at的后缀名存储,并保存到"工具包的目录下,具体存储形式为<taret><feature>lg:<vaue>"""<feature>:<value>...<feature>:<value>,如圈5.2所不。<target>指该条评论的标""""""""""签-<fea><valu,用1、1或0表示;ture指评论特征的编号;e>指相应的特征值。11:852:133A544:55:106:0.777:3.278:109:010:011:822:113:7.巧4:55:96:0.827:4.148:119:010:011:902:103:94:55:96:0.97:58:99:010:0I1:n3:.:::.巧:.8:::602545455860730799:0100I1:772:n3:74:弓5:96:日.82了:3.898:了9:010:0I1:622:93:6.894:5弓:96:17:3.4弓8:89:010:011.56.6了73.498790:672:123:5584:5:8:0:::10:0图5.2数据存储形式Fi.5.2Storaeformatofdatagg(2)将数据正确的形式存储好之后,就可训练数据来得到相应的分类模型。""examlel/traintransduction.dat/model本研究用于训练的命令符为p,该命令的含义是_""""用图5.3中的程序svmleam.exe对文件夹examplel里存储了训练数据的文件_""trainJransduction.dat进行分类模型的训练,训练结束后即可得到评论有用性分类模""""lll型,生成模型的描述文件mode存储于文件夹exame中p。--46 大连理工大学硕±学位论文巧胃凌爹宙<&?,轰友?',-^苗K!ii:.iI;幸iIV:?峨‘:么成々;化;r:.:;:;;;4I■',,?;-:1:)!1III!IIII^!I'??X^JP\riIfexamp(e1examp(e2exampfeSexamp(e4examples、.‘二.巧招解呼.乂,-%M—?HMj|*||||k-iS:IHHHH——v ̄——kgj一――:圓:圓国IH,—^'.……—..^examle6examle/examlessvmclasslf.exesvmearn.exeppp_yj图5.3相关文件夹示例Fi.5.3Examleofrela化ddagp1:afolder(3)通过训练得到分类模型后,还需要利用测试数据对已有模型进行分类准确性"的测试。这时要运行命令svmclassifexamlel/test.datexamlel/model_ypp"""""examlel/redictions,该命令要求用程序svmclassi.exe和测试数据文件test.datpp_fy""""对己有模型进行测试,得到测试信息文件redictions存储于文件夹examlel中pp。一本研究实施了四组对照试验,第组是用基于TSVM的半监督学习同基于传统S二姐是一定的条件下VM的监督学习进行对比,设置不同数量;第在无标签评论数量一的有标签评论进行训练并对比结果;第H组是在有标签评论数量定的条件下,设置不同数量的无标签评论进行训练并对比结果,;第四组实验剔除基于商品信息的评论特征再将得到分类结果同原始结果进行对比。此外,本研究用准确率(Accuracy)、查准率P-(recision)、查全率(Recall)和F值(Fmeasure)作为主要指标来测量分类模型的表现,具体实验结果和相应分析如下。表5.2半监督和有监督学习结果对比Tabrionof-li.5.2Compassemisupervisedearningandsuervsedlearninpg-AccuracPrecisionRecayllFmeasure半监督学习^風^71.85%监督学习61%82.35%28%41.79%通过表5.2可看出,基于TSVM的半监督学习结果要更优于基于SVM的胳督学习结果,,除了在查准率上稍有不足半监督学习在其他各项指标上都有明显的优势,因而可W认为在存在大量无标签评论的条件下,对其有用性进行半监督分类训练可W起到更优的效果。-47- 基于商品特征挖掘的在线评论有用性分类研究表5.3不同数量的有标签评论训练结果对比Tab.5.3ComarisonoftraininresultswithdiferentnumbersoflabeledreviewspgAccuracyPrecisionRecallF-measure40条有标签评论mWo^71.85%20有标签评论72.5%74.19%69%71.5%条10条有标签评论73%73.47%72%72.73%2条有标签评论64%62.5%65.9%64.15%通过表5.3的对比可W看出,TSVM在有标签评论数量极少的情况下分类效果并不,但当有标签评论数量增加到0,好1条时就有分类结果就有了显著地提升之后继续增加有标签评论数量,效果提升逐渐变小。这说明TSVM非常适用于有大量无标签评论和少量有标签评论的有用性分类,在避免对大量评论进行标记的同时可W保持优异的分类效果。表5.4不同数量的无标签评论训练结果对比Tab.5.4Comarisonoftraininresuhswithdiferentnumbe。ofunlabeledreviewspgrec-AccuracPisionRecallFmeasurey^1^0^71.85%200条无标签评论〇80条无标签评论76/〇85.14%63%72.42%〇20条无标签评论59/〇80%24%36省2%〇6/82.35%28%41.79%0条无标签评论1〇通过表5.4可W看出,当没有无标签评论或者无标签评论数量较少时,训练得到的分类模型表现较差,但当无标签数据增多时,得到的分类模型表现有了很大的提升。同,200时也可W看到,是否无标签评论数量越多越好是个值得讨论的问题因为有条评论时模型的表现反而略低于有80条评论时模型的表现。表5.5有无基于商品特征信息的评论特征是模型表现对比Tab.5.5Comarisonftii化suitswith/wi化outroducti打formationbased化viewfeaturesporanngpccuacPrec-ArisionRecallFmeasurey ̄W有此评论特征io厭。^71.85%无此评论特征70%74%61%66.87%通过表5.5可看出,本研究加入基于商品特征信息的评论特征是很有必要的,力口-48- 大连理工大学硕壬学位论文一入后的分类模型在各个指标上都优于未加入该评论特征的分类模型,该结果进步证实了商品特征信息对评论有用性有重要的影响。经过W上实验分析,本研巧认为基于TSVM的评论有用性分类方法是可行的、有效的,该方法利用了半监督学习的手段解决了针对较大规模的评论语料进行分类学习的问题,同时也考虑到商品信息对评论有用性的影响因素,选择相关评论特征用于分类,进一步提升了分类模型的表现。5.5本章小结目前针对中文评论有用性的研究主要集中在分析影响因素上,对评论有用性分类研巧尚少。本章基于半监督的学习方法,用直推式支持向量机算法对已有评论进行有用性,分类结果显示了该方法的有效性。本章首先对评论有用性的问题进行形式化的描述;,总结什么是有用评论然后对评论有用性进行定义,什么是无用评论接着介绍了文本;分类常用的半监督学习算法,并着重介绍了直推式支持向量机的算法流程;最后,本章介绍了实验环节,包括实验的准备和实施过程W及结果的分析。实验结果表明,本章所一提出的评论有用性分类方法有着优异的表现,可W为接下来在该领域的研巧提供定的参考。--49 基于商品特征挖掘的在线评论有用性分类研究结论随着电子商务的迅速发展,在线评论的作用日益突出,它不仅可W对消费者的购买决策提供指导,也可W向商品的生产者和经销商提供有效反馈,进而改进商品质量和制定营销策略,,评论。由于在线交易的爆发式増长海量的在线评论变得难W处理质量的一参差不齐使得对评论信息的提取成为个亟待解决的问题。本文所提出的在线评论有用性分类研巧为该问题的解决提供了可行的途径,它可W将在线评论按照其有用性的高低分成有用评论和无用评论,评论的阅读者可W直接阅读含有更多信息的有用评论而忽略信息量较少的无用评论,这样就很大程度上缓解了阅读海量评论所遇到的时间消耗过大和理解困难等问题。本文首先对商品特征进行挖掘,商品特征是消费者对商品的具体关注点,而这些关。注点常常出现在评论中,并伴随着相应的特征描述和使用评价本研究在对分词、剪枝和特征选取等步驟进行优化后,特征挖掘结果的准确性有很大的提升。通过总结该部分研巧内容和实验结果可W看出,商品特征挖掘过程中的各个环节都有深入研究的空间,如果能引入领域词典提升分词的准确性,同时进行有效的剪枝来准确的剔除无用关键词,最后选取恰当的挖掘算法来提取出商品特征,就可W全面提高商品特征挖掘的准确一度,而本文所展示的商品特征挖掘结果也证实了这点。由于评论内容是所有电子商务网站的评论系统都提供的基本信息,因而本文认为在线评论有用性分类特征的选择还需要对评论内容信息进行更加深入的分析,从而找到更多评论有用性的影响因素。用户对商品的评价本质上是对各个商品特征的评价,因而商品特征信息同样会对评论有用性产生重要的影响。本文选取了商品特征数量、句平均特征数量等四项基于商品特征信息的评论特征用于评论有用性分类,结果显示加入了此类特征后分类结果有明显的提升,从而证明了商品特征信息对评论有用性的重要影响。监督学习可W对评论进行较准确的有用性分类,然而随着评论数量的增多,在数据一一问题预处理阶段对评论进行标记就成为了个难题。为了解决这,本文用半监督学习的方法对评论有用性进行分类,并在实验前给出有用评论和无用评论的准确定义W解决用户主观性对人王标注准确性的负面影响。直推式支持向量机(TSVM)由传统的支持,可W用来解决半监督学习问题向量机(SVM)发展而来。有用性分类结果验证了基于TSVM的半监督学习在处理大量无标签评论样本的优越性,结果同时表明有标签样本和无标签样本数量的增加都会一定程度上提升分类的准确性。--50 大连理工大学硕±学位论文本研究有较强的理论意义和现实意义,总体的实验结果也表明本文所提出方法的可行性和有效性,然而本文在商品特征挖掘和在线评论有用性分类的研巧中还存在W下不、足,例如样本数量不足数值实验设计不够全面、没有将搜索型商品和体验型商品分开讨论等等,这些需要重点改进的环节将是未来的研巧方向。-5-1 基于商品特征挖掘的在线评论有用性分类研究参考文献-1200836:3741.[]伍星,何中市,黄永文.产品评论挖掘研巧综述[J].计算机工程与应用,,2ZhuanLiFZhuXY.MovieReviewMininii.Pi[]g,Jng,gandSummarzat曰n[C]roceedngsof1.the日thACMInternationalConferenceonInformationandKnowledgeManagementACM2006-:4350.,一[3]姚.天的,景青阳,李建超,等.个用于汉语汽车评论的意见挖掘系统C]中国中文信息[学会二十五周年学术会议,2006.4BehardSHYThAl.EtrtiOiiitiii[]t,on呂,ornton,etaxacngpnonProposonsandOpnonHoldersusinSntacticandLexicalCues.InformationRetrieval,2006,gy[J]20-:125141.日KobahN-ldaRIiK.OiiMiiEAibteVa[]yasi,i,nu,etalpno打nn呂asxtractionofttrulue民elations[M].NewFrontiersinArtificialIntelligence.SpringerBerlinHe-ideer2006:470481.化g,目KimSMHovEAuiDetiinionBiWordsandSen.[],y.tomatcectonofOpearngtences[J]ProceedingsofIcnlp.,200己j7TurnePD.ThumbsUporThumbsDown?SemanticOrientationAppliedtoUnsupervised[]yClassificationofReviews.PAltheA[J]roceedin吕sofnnuaMeein呂oftssociationfor-ComutationalLinuistics.pg,2002:4174248KuLWLianYIChenH比OinionExractionSummarizationandTrackininNews[],g,pt,gandBlogCorpora[C].MAIspringsymposium:ComputationalApproachestoAnalyzing-Weblos.g,2006:1001079Hat之ivassilo呂louVWiebe.EffectsofAdiveOrientati曰nandGradabilit[],JMjectyonSentenceSubectivitC.In过ionaConferenceonComuionajy[]terntlptatl-LinuiStics:.g,200029930510HuMLiuB.MininandSummarizinCustomerReviewsC.Proceedinsofthe10th[],吕呂[]gACMSIGKDDInternationalConferenceonKnowledeDscoverandDataMininACM呂iy呂,,2004-:168177.一[11]李实..,叶强,李军,等挖掘中文网络客户评论的产品特征及情感倾向[J]计算机应用研究,2010,27(8).一12..[]李实,叶强,李军中文网络客户评论的产品特征挖掘方法研巧[J]管理科学学报,-2009122:142152.,)(13HuM.Minin[],LiuB呂opinionfeaturesincustomerreviews[C].ProceedingsofN-ineteenthNationalConferenceonArtificialIntellienceAAAI2004;75日760.g,,-己2- 大连理工大学硕±学位论文[14]ZhuangL,JinF,ZhuXY.MovieReviewMi打inandSummarization[C].Proceedins呂呂gofthe15thACMInternatio打alConferenceonI打formatio打andKnowledgeMnageme打t,ACM-,2006:4350.[15]PopescuAM,Etzioni0.ExtractingProductFeaturesandOpinionsfromReviews[M].-Natur过1LanguageProcessingandTextMininginerLondon2007.,Spr呂,:92816ScaffidiCChRP-[],BierhoffK,angE,etal.edOpal:ro加ctfeatureScori打gfromReviews[J.Proceedinsofthe8thACMConferenceonElectronicCommerce,ACM,]g2007-111:829.[17]PangB,LeeL.OpinionMi打inandSentimentAnalis[J].FoundationsandTrends呂ysin——I打formationRetrieval,2008,2(12):1135.[18]PakA.TwiisisandOiMin,ParoubekPtterasaCorpusforSentmentAnalyp打ioning[C].Proceed!打gsofthe7thConferenceonInternationalLan呂uageResourcesandEvauation-l,2010,10:13201326.[19]王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37巧):5-13520.巧0]苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,-17巧):18481859.21ShiB,Chan.Miiseiews[C].6thIEEEInional[]gK打i打gGh打eRevternatConferenceonICs-DMWorkhops,IEEEComputerSociety,2006:585589.口幻周茜,赵明生,廈曼.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):-1723.-巧3]郁亚辉.,2014,333:326.产品评论特征及观点抽取研究[J]情报学报()336.[24]张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,329-(1)7678:.巧日]孙春华,刘业政.基于产品特征词关系识别的评论倾向性合成方法[J].情报学报,2013,3284-852):84.([26]StephenAT,Toubia0.Derivi打呂ValuefromSocialCommerceNetworks[J].Journal-ofMarketinResearch2010472.g,,):2巧2挑([27]ArchakN,GhoseA,IpeirotisPG.DerivingthePricingPowerofProductFeatures-bMininConsumerReviews[].ManaementScience,2011,57(8)14巧.ygJg:8509[28]PangB,LeeL.Ase打timentaleducation:sentime打tanalysisusi打呂subjectivitysummarizationbased0打minimumcuts[C].Proceedin呂softhe42ndAnnualMeetinongAssociationforComputationalLinguistics.AssociationforComputationalL--inuistics,2004:271278.g29Lee,ParkD,anI.eeffectofeativeonlineconsumerwsonroduct[]JHHThn呂reviepattitude:Aninformationprocessingview[J].ElectronicCommerceResearch&Al-ppications,2008,7(3):341352.--53 基于商品特征挖掘的在线评论有用性分类研究[30]GhoseAIerois.,pitPGEstimatingtheHelpfulnessandEconomicImpactofProductReviews:MininTextandReviewerCharacteristicsIEEETransactionson呂[J].Knowl&DaEni0102310-edetaineern:14952ggg,2,()811.-31LeeTY.NeedsbasedanalsisofonlinecusmerreviewsC.International[]yto[]ConferenceonElectronicCommerce:TheWirelessWorldofElectronicCommerce,—ACM:338,2007111.32Le-iuJCaoY,LinCYl.LowliProductReviewDetecioninOini[],,taQuatytponSummarization[C].Proceedingsofthe2007JointConferenceo打EmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearn-in2007:334342g.,33LEPNVAdalN.Di[]im,guyen,Jin,etaletectinroductreviewspammersusnratingpggbehaviorsC.Proceedins曰fthe19thACMinternationaconferenceonInformation[]glandknow ̄ledemanaementACM2010:939948gg,,.[34]JindalN,LiuB,Lim目P.Findingunusualreviewatternsusinunexpectedrules[C].pgProceedingsofthe19thACMInternationalConferenceonInformationandKnowledge-Manaement:92g,ACM,2010154155.3--[己]ZhengX,ZhuS,LinZ.Capturingtheessenceofwordofmouthforsocialcommerce:Assess--ingthequalityofonlineecommercereviewsbasemisuervisedaroach[].ypppJDe-cisionSuortSystems,2013,56:211222.pp[36]AuYeungC,IwataT.Strengthofsocialinfluenceintrustnetworksinproductreviewsites[C].Proceedingsofthe4thACMI打ternationalConferenceonWebSearchtaM-andDainin,ACM,2011;495504.g巧7.在线评论有用性影响因素研究[D].2014.]林先杰华南理工大学,8-巧]苗蕊..中国管理信息化201418:126128.在线评论有用性研究综述,()[J]40FormanCGhoAWi.EiithelBeReview[],se,esenfeldBxamnn民eationshitweensandgpSales.:TheRoleofReviewerIdentityDisclosureinElectronicMarkets[J]SocialSc-ienceElectronicPublishin2008193:291313.g,,()’41BaekH,AhnH,ChoiY.Helfulnessofonlineconsumerreviews:民eadersobectives[]Jpjandreviewcues.InternaionalournaofElectronicCommerce2012172:[J]tJl,,()99-126.'’42RacherlaP,FriskeW.Perceivedusefulnessofonlineconsumerreviews:An[]exploratoryinvestigationacrossthreeservicescate呂ories[J].Electronicl2026548-CommerceResearch&Apications.p,1,1H):日日943—[]殷国鹏.消费者认为怎样的在线评论更有用?社会性因素的影响效应[].J管理世界,-2012(12:115124.)-54- 大连理工大学硕古学位论文—基于信息采纳与社会[44]殷国鹏,刘霎霎,祝珊.网络社区在线评论有用性影响模型研究-7网络视角[工作,20口,56(1巧:1.J].图书情报40141[4引彭试,周启海,邱江涛.消费者在线评论有用性影响因素模型研巧[J].计算机科学,201,-207端做:205.[47]MudambiSM,SchuffD.师atMakesaHelp化1ReWew?AS化dyofCustomerReviewsonAmazon.com[J].SocialScienceElectronicPublishin,2010.g48Pan-[]Y,Zhang化BornUneual:AStudoftheHelfulnessofUserGeneratedProductJqyp^Rev_iewsournaofRetaii1175986[J].Jllng,20,8(4):口.-B-[49]KorfiatisN,GarclaariocanalE,SdnchezAlonsoS.Evaluatingcontentqualityandhelpfulnessofonlineproductreviews:Theinterplayofreviewhelpfulnessvs.reviewcontent[J].ElectronicCommerceResearch&Applications,2012,-11(3)205217.:王平-[50.消费者在线评价有用性影响因素实证研充111120][J].统计与决策,202(2):8.[51]SieringM,MuntermannJ.WhatDrivestheHelpfulnessofOnlineProductReviews?FromStarstoFactsandEmotionsCW-[].irtschaftsinformatik.2013;104118.[52]DellarocasC.TheDigitizationofWordofMouth:PromiseandChallengesofOnline-FeedbackMechanisms[].ManaementSci畑ce2391141424Jg,抓,4(0):07.[53]李宗伟,张艳辉.体验型产品与捜索型产品在线评论的差异性分析[J].现代管理科学,-2013(8):4246.[54]SchindlerRM,BickartB.Perceivedhelpfulnessofonlineconsumerreviews:Theroleofmessagecontentandstyle[J].JournalofConsumerBehaviour,2012,-11323342.():4[55],.2013麽成林,蔡春江李忆电子商务中在线评论有用性影响因素实证研究[J.,,]软科学2746-50:.巧)[56].严建援,张丽,张蕾电子商务中在线评论内容对评论有用性影响的实证研究[J].情报07-科学,212巧):13716.57ConnormbiMchuffDsii-[]sL,MudaS,S.Iitthereviewortherevewer?Amultmethodapproachtodeterminetheantecedentsofonlinereviewhelpfulness[C].201144th-HawaiiInternationalConferenceonSystemSciences,IEEE,2011:110.巧引郝媛媛一,叶强,李军.基于影评数据的在线评论有用性影响因素研巧[J].管理科学学—117888.报,200,3(8):59—[]罔强,孟跃.在线评论的感知有用性影响因素基于在线影评的实证研巧[J].中国管-2013(1):126口.理科学,1[60]GarbarinoE,StrahilevitzM.Genderdifferencesintheperceivedriskofbuyingonlineandtheeffectsofreceivinasiterecommendation.g[J]JournalofBusinessResear-di004,57776775,2():8.--55 基于商品特征挖掘的在线评论有用性分类研究目1DearocasCZhanXMAwadNF.Exlorinhevaueofonineroductreviews[]ll,g,pgtllpinforecastingsales:Thecaseofmotionpictures[J].JournalofInteractiveMarke-tin2007214:2345.g,,()62PiiLLeeYWWanRY.Datauaitssment.Communicatio打softhe[]pnoL,,gqlyasse[J]-ACM:2.,2002,4日411218()63TalwarAurcaRFainsB.Understandinuserbehaviorinonlinefeedb过ck[],J,llggreortin[C].Proceedinsofthe8thACMConferenceonElectroni巳Commerce,ACM,p吕g-2007.:13414264Hu-[]N,Zhang,PavlouPA.Overcomintheshaeddistributionofroductreviews[J].JgJpp-CommunicationsoftheACM,2009,52(10):144147. ̄.9[65],王洪伟.在线产品评论检索系统研究[]情报杂志,2011,30巧:141已4.史伟J)’66MinHParkCIdentifinhefulreviewsbasedo打customersmenionsabou[]J,J.yglpttexerien巳es.ExertSystemswithAlicationsanInternationalurnal2,201,p[J]pppJo-3915.(:1183011838)67LuYTsaarasPNtoulasAetalExoiinsociao打textforreviewuali[],p,,.pltglcqty-redictionC].ldWideWebConferenceSeries:69700.Wor,20101p[目8HuN.,LiuL,SambamurthV.Frauddetectioninonlineconsumerreviews]Decision[]y[JSuortSstems20-11日0:614626ppy,,口).69MANiK.Ailfibat[]cCallum,gamcomparsonofeventmodesornaveyesextc-lassificationC.AAAI98WorkshoponLe过rninforTextCateorization1998[]gg,,752-:4148.CoverTMENhbortternclassification.IEEET[70],HartP.earest打eiga[J]ransactionsp-1967.onInformationTheor,13(3):2127y,7-1uinanR.Inductionondecision.MachineLearnin,1986,11:81106.[]QlJtree[J]g()72HNil民.TheorofhaationNeuralNetworkPrin[]echtesenyteBackPropg[J].oceedg93-603ofICNN.,1989,11:5J()'73CortesCVapnikV.SuppoitVectorMachine.MachineLearnin199日203:[],[J]g,,()273-297.74Sa—ltonG.TheSMARTRetrievalSstemExerimentsinAutomaicDocumentProcessin[]yptg-M.PrenticehallIncUerSaddleRiver1971.[],pp,l-.wehttRetrievl[75]SaltonG,BuckeCTermitinApproachesinAuomaticTexa[J].ygg-InformationProcessin&Manaement1988248:目13523.gg,,巧)目PanBLeeLiiiitAli.Fions&Trendi[7]g,OpnonMnin呂andSentmennayss[J]oundatsn--InformaionRetrieva2008212.tl:113日,,()[77]LiuB.SentimentAnalysisandOpinionMining[J].SynthesisLecturesonHumanl-67LanuaeTechnooies.,2012,51:11ggg()-56- 大连理工大学硕±学位论文78[]石旭.体验型产品评论有用性研究化].华中科技大学,2011.口引金丽君.基于SVM的搜秦型商品评论有用性自动识别方法研究[D].哈尔滨工业大学,2013.巧0化XLuYu-],i,HaiigX,etal.AQualityawareModelforSalesPredictionUsingReviews[C].Proceed!打gsofthe19thInternatio打alCo打fere打ceonWorldWideWeb,WWW20-10RaleioiiJiCarolinaUSA2010:12171218.,如,N,,--57 基于商品特征挖掘的在线评论有用性分类研究攻读硕±学位期间发表学术论文情况一1种基于网络评论的商品特征挖掘方法.郭崇慧,张倚天.情报学报,己录用.主办单位:中国科学技术情报学会、中国科学技术信息研究所。(本硕±学位论文第H章)-58- 大连理工大学硕dr学位论文致谢转眼间,在大连理工大学的^:年时光就要结束了。此篇硕±毕业论文不仅是对研究生兰年工作的总结,也是在求学生涯的尾声给自己的正式交代。论文的撰写过程不仅包含了对学术问题的思考和实践,也充满着来自各方的激励与帮助。之前的章节已经将自己的学术思考和实践系统详细的进行了阐述,而在最后的致谢环节,我要谢谢那些给与了我无私帮助的人。一一师者。郭崇慧教,传道受业解惑者也研巧生期间最大的幸运就是能在我的导师一授手下做个普普通通的学生,,郭老师不仅教给了我做学术的态度和方法更是言传身教的让我明白了做人的道理。郭老师不会将自己的想法强行的灌输给我,他给了我最大的自由度去思考,去寻找自己的研巧兴趣;郭老师又不会放任我在知识的海洋里四处游一一旦我有不明白的学术问题郭老师都会在第走,时间和我探讨,并向我提供可行的解,决方案。还要感谢郭老师积极的推荐我去参加各种各样的学术交流会北至哈尔滨,南到深圳,各地的学科会议都有我的身影,参加会议让我明白了最前沿的学科动向而不再像从前那样故步自封。郭老师的学术能力让我赞叹,而郭老师正直的品格化我难忘,多""年,,正直(^后,或许自己会将研巧生云年所学逐渐淡忘然而踏实做事为人的念头、仍将永记于屯。一辈子同学H辈子亲,我同样要谢谢师口的诸位,班级的诸位,寝室的诸位。论文中的很多想法都是在同师口的各位交流的过程中产生的灵感,不仅如此,我们还经常去一郊游,H年W来、唱歌、聚餐,我们真的就像家人。研巧生的班级里每个人都很匆忙一起参与一大大小小的活动都是和你们,有你们这群努力又有趣的同窗是我的幸福。然一后是我可爱的室友们,435寝室将我们有不同性格的四个人聚在了起,此时耳机中想""起的seeyouagain恰如其分的表达了我现在的想法,尽管尚未离别,但想起H年的一起挥霍点滴也中仍有甜蜜的不舍,索性未来还有许多个H年让我们。。,也最后,我要谢谢我的家人当学习生活中有问题无法向同学倾诉难^^跟室友启一齿,家人就成了我的最后道防线。谢谢爸爸妈妈时时刻刻对我的鼓励,虽然你们可能完全看不懂我的论文内容,但是里面藏着你们满满的嘱咐和鼓舞,谢谢你们无微不至不求回报的爱。当然还要谢谢胡诗萌同学,谢谢你每天的关也和对论文中数据预处理部分的重要帮助。--59 大连理工大学硕壬学位论文大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论义工作的知识产权属于大连理工大学,义许论文被查飼和借阅。学校有权保留论文并向国家有关部口或机构送交论文的复印件和电子版,可L乂将本学位论文的全部或部分内容编入有关数据库进行枪索、,可W采用影印缩印。、或扫描等复制手段保存和汇编本学位论文学位论文题目:辟名邸句化键糸寺)日期?作者签名>、:占年&月)日;j名巧导师絶^:日期;/年^月日

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭