在线商品评论有用性预测及影响因素研究

在线商品评论有用性预测及影响因素研究

ID:35053724

大小:5.34 MB

页数:57页

时间:2019-03-17

上传者:U-56225
在线商品评论有用性预测及影响因素研究_第1页
在线商品评论有用性预测及影响因素研究_第2页
在线商品评论有用性预测及影响因素研究_第3页
在线商品评论有用性预测及影响因素研究_第4页
在线商品评论有用性预测及影响因素研究_第5页
资源描述:

《在线商品评论有用性预测及影响因素研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

10359TP181单位代码:分类号:-20巧110480学号密级;公开冬瓜A令义考HefeiUniversityofTechnology顧±学位论文M乂STERDEGREETHESIS论文题目:在线商品评论有用性预测及影响因素研究学位炎別:学历硕±学科专业:计算机科学与技术(工巧领域)作者姓名;陈方盡祥帅姓名:胡学钢教授完成时间:20化年4月 单位代码;些?密级:^^2.学号:2013110480分类号:TFM81HefeiUniversitofTechnoloygy硕±学位论文MA^STERSDISSERTATION论文题目;在线商品评论有用性预测及影响因素研究:学历硕壬学位类别专业名称;计算机科学与技术;陈方蠢作者姓名导师姓名;胡学钢教授完成时间:2016年4月 合赃工业大学学历硕±学位论文在线商品评论有用性预测及影响因素研究作者姓名:陈方蠢指导教师:朗学钢教授学科专业:计算机科学与技术研巧方向:智能计算理论与软件2016年4月 ADissertationSubmittedfortheDereeofMastergResearchonHelfulnessPredictionpandImactFactorsofOnlineProductReviewspByChenFanxingHefeiUniversitofTechnoloygyHefei,Anhui,RR.ChinaAril2016p, 合肥工业大学本论文经答辩委员会全体委员审查,确认符合合肥工业大学学历硕±学位论文质量要求。答辩委员会签名、职称、(工作单位姓名)主席:作I句如义戶换.挺碱委员:令解斗诚米終_'、^^>导师:叫刮知 学位论文独创性声明本人郑重声明:所呈交的学位论文是本人在导师指导下进行独立研巧工作所取得的成果,。据我所知,除了义中特别加W标注和致谢的内容外论文中不包含其他人己经发表或撰写过的巧究成果,也不包含为获得合肥工业大学或其,他教育机构的学位或证书而使用过的材料。对本文成果做出贡献的个人和集体,并表示谢意本人己在论文中作了明确的说明。学位论文中表达的观点纯属作者本人观点,与合肥工业大学无关。:日学位论文作者签名:签名日期年^月P\f备学位论文版权使用授权书龙堂化论义作者完全了解合肥工业大学有关保留、使用学位论文的规定,学校有权保存并向国家有关部鬥或化构,即;縣保密期内的涉密学位论文外送交论文的复印件和电子光盘,允许论文被査阅或借阅。本人授权合肥工业大学可W将本学位论文的全部或部分内容编入有关数据库,允许采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:指导教师签名:v么年日:年f月签名曰期,i曰签名曰期//I户论文作者毕业去向工作单位;-mail;联系电话:E政编码:,通讯地址:邮'1 致谢白马过隙,时光飞逝,两年半的研巧生时光即将进入倒计时了。入学时的情景还历历在目,而如今却要挥手告别这所装满我青春记忆的学校。回忆这段青春一岁月,感慨万千,对人生下站的期待和对母校留恋不舍的复杂必情充斥着内屯。两年半的时间让我受益匪浅,倍感欣慰之余也庆幸无比,良师益友的教导和陪伴让我一直保持着不断向上的斗志,在此,谨向他们表达我最真诚的谢意。最深的谢意献给我的导师胡学钢教授。早在本科时,胡老师就是我的任课老。师,其在讲台上侃侃而谈,博古通今的风采让我崇拜非凡本科毕业后,当有机。会选择读研的时候,我坚定的选择师从胡老师两年半的时光里,胡老师给我的不仅仅是学术方向的指导,还有生活的关怀和做人的道理。胡老师为我们营造了一,成功时给我们提醒,他的言传身教、片自由韩翔的天空,失败时给我们鼓励严谨求真的治学精神是我一生最大的财富。一感谢张玉红副教授。在两年半时光中直陪伴我们左右,,张老师从论文定题到定稿、,张老师倾注了她全部屯血。她无数次的纠正研究过程中的错误,无数一丝不苟的工作和循循善诱的教导才有我如今的次的提供实验思路。正是张老师研究成果,对此学生谨记也上,无比感激。感谢李培培老师。李老师在学生的研巧过程中给了极大的启发,对数据的梳。理给予很多的建议,而送些都对后期的研巧产生了深远的影响""感谢数据挖掘千人计划团队所有的老师和同学。感谢张晶、吴共庆、李磊、郭丹、谢飞、张启平老师,感谢他们在生活和学习上的关也。感谢同届的杨。超群、陈伟、马利伟同学,感谢他们的陪伴和帮助同时也要感谢实验室的各位师弟、师妹,正是你们共同营造的求真、求实的实验室氛围才能让我安静愉悦的学习。感谢我的父母,妻子和孩子。没有你们的支持和理解就没有我的现在。在我一直支持着我失落的时候,你们,在我成功的时候,你们陪伴我欢笑。我将用我的全部力量去回报你们对我的爱。。,让最后,我要感谢合肥工业大学这所大学让我晩变我成长,承载着我青春岁月的全部欢乐、悲伤、挫折和成功。无论将来我走向哪里,我都将时刻谨记我是一名工大人一,我都将更加从容的也态面对切挑战。作者:陈方蠢2016年4月5日I 摘要随着互联网的快速发展,带动了网络商务的兴起,网络消费已经成为人们社一会生活重要部分。但是由于网络交易中产品不确定性,导致人们越来越迫切需要获得信息来帮助个人进行购买决策、帮助企业进行反馈收集。因此,在线评论受到了越来越多的关注一。然而,大量的在线评论中参杂着些无用甚至恶意的评论,给人们获取有用信息带来了困难,如何在海量巧论中获得真正有用的评论得到了学者们的关注。本文结合领域中的一些成果,针对如何预测在线评论的有用性展开研究,主要工作如下:(1)、在线评论有用性的预测相关综述;首先介绍了本文的研巧背景研究目的及意义等一,随后对目前领域中的些研巧方法进行介绍,并结合这些研巧成果一些问题提出本文的研巧方法和研究中存在的。(2)-L模型建立RRS,并分析影响因素:目前,用于预测评论有用性的影响因素主要集中的评论文本这一单个属性,针对这个问题,本文综合考虑评论文本属性-、评论者属性和店铺属性H个方面,基于多元线性回归模型建立了RRSL模型。在实际数据集的实验表明,该模型具有良好的分类效果,在能有效过滤无用。评论的同时,也能够剔除对预测无用的自变量-(3RRS-)L模型的自变量冗余性分化为保证模型的稳定,对RRSL模型中一的自变量进行线性分析,将线性相关性强的属性取样,逐代入,通过实验对比-LL模型-获取性能最好的RRS。在与经典二分类模型对比实验中表明,RRSLL模型在减少用于预测的自变量,降低预测成本的同时,具有更好的分类效果。关键词:在线评论;有用性;影响因素:预测模型II ABSTRACTWiththeraiddevelome打toftheInternetthebusin巧sofnetworkh泣sbeenoularpp,ppandnetworkconsumptionhasbecomesignificantinthedailyli氏ofpeople.However,duetotheimcertaintyoftheroductsinthenetworktransactions,化isurenttoetpgginformation化helpindividualsforpurchasedecisionsandtohelpenterprisesforfeedbackcollection.Thereforeonlinereviewshavereceivedmoreandmoreatention.,Howeveritisdificult化obtainusefulinformationforusdue化alarenumberof,ginvalidandevenmaliciousreviewsthushow化et巧allusefulreviewsinthehue,,gygcommentsattractsmoreattentionofresearchers.Thisdissertationfocusesonhow化predicttheusefulnessofonlinereviewsandmaincontributionsareasfoUows.^w1Weiveasurveofredictivereviewsusefulness:Moresecificallefirst()gy,ppyintroducethebackgroundandmotivationandthensummarizesomemethodsof,,pre出ctivereviewsusefulness.Finally,wepresentourapproachintheanalysisofthesemethods.-aacn2WebuildaRRSLmodelandive化eanlsisofimtfactors;Existi()gypg^effortsmainlyfocusontheanalysisofreviewstextproperty.Motivatedbythis,wepropose泣multiplelinearregressionalgorithmbasedmethodtoredictthehelfolne巧pp,ofonlinereviews.Themethodfirstconsidersthreeimp江ctfacto。includingreviews,,exroend-ttrtiesrevieweirsroertiesastoresroertiesthen化creates江RRSLpp,pppp,moderedichefulnessonlineeview.Exrimenalresulconducedonl化tthelofrsettstppprealdatasetsshowthatthemodelhasaoodclassificationeffectcaneffectivelyfilterg,usele巧reviewsbutakocaneliminatetheusele化indeendentvariables.,pancenden-e〇3RedundanalsisofindeptvariablesinRRSLmodl:I打the)yyna-tealsisoftheimactfactorsweettheRRSLLmodel.Toensurethestabilitofhyp,gymode-lweanalzethelinearcorrelationsamonindeendentvariablesintheRRSL,ygpmodel,andremovetheindependentvariableswithstronglinearcorrelations.Finally,we-buildmodelsasvariablesarriveonebyoneandetanotimalmodelcalledRRSLL.gpExerimenta-plKsultsshowthattheRRSLLmodelcanerformbettercomared化theppclassicaltwoclassificationmodels,whileusingfewerindependentvariablesandreducingtheco^.Keywords;onlinereview;helpfulness;impactfacto巧;predictivemodelIII 目录一第章绪论11.1研巧背景11.2问题提出21.3研巧目的及意义31.4本文主要研巧内容31.4.1课题来源31.4.2主要研究内容441.5论文架构15.6小结7第二章在线商品评论相关综述2.1在线评论的基本理论72丄1在线评论含义72丄2在线评论的传播过程82丄3在线评论的传播因素82丄4在线评论的测量维度92.2在线评论的相关理论92.2.1信息过载与决策导向理论92.2.2归因理论102.2.3顾客感知理论102.3预测在线评论有用性的相关研巧112.3.1径向基函数模型112.3.2多层神经网络算法122.3.3概率分布和置信度142.3.4多元线性回归模型152.4小结16第H章在线商品评论有用性预测模型及影响因素研巧173.1引胃173.2研巧方法193.2.1属性获取193.2.2模型构建2033实验结果与分析21IV 3.3.1实验数据21321.3.2变量的初步分析3.3.3主属性分析223.3.4子属性分析243.3.5基分类模型对比253.4小结26-第四章RRSL模型的自变量冗余性分析274.1引胃274.2研巧方法284.2.1线性相关性考察284.2.2选取对比实验294.3实验结果及分析294.30.31子属性分析4.3.2模型改进31434.3.3二分类模型对比4.4小结35第五章总结与展望%5.1本文总结%5.2未来展望37参考文献38攻读硕±学位期间发表的论文43V 插图清单图1.1全文各章节逻辑关系图5图2.1在线评论的传播过程8图2、2在线评论四个传播因素及其内容9图2.3反向传播神经网络13图2.4亚马逊网站中巧论有用性投票机制的例子14图4.1自变量之间线性相关性分析部分截图30VI 表格清单3表.1变量解释19-3表.2RRSL模型变量描述性统计213表.3涵盖不同主属性的模型的指标对比23-表3L模型各子属性的显著性水平描述24.4RRS---3、:表.5RRSLHYY、RRSG和RRSR模型相关指标对比26一-表4L模型与仅保留31.1RRS个线性相关强变量模型的指标对比-表4LL模型中各变量代表符号及含义巧.2RRS-表4LL模型与经典二分类算法模型的对比34.3RRSVII 第一章绪论第一章绪论在线评论由于其客观性、全面性、匿名性和互动性等特点收到了消费者的高。度关注,与此同时,互联网的快速发展也带动了在线评论的发展如何有效的利用在线评论受到了越来越多的关注。在本章中将主要介绍预测在线商品评论有用性的研巧背景、研巧意义、主要研究内容化及本文的相关组织架构。1.1研究背景随着经济全球化,互,贸易自由化的要求联网己经进入了全新的时代。互联。网W其非凡的风采给人们的生活带来了巨大的变化在互联网的影响下,人们己W经进入了数字化时代,能够更加便利的进行信息交流。据相关统计,我国的网民一P1从2011年的4.720156.68亿。互亿己经増加到年的,位列世界第联网己经融一入人类生活的每个角落。互联网的高速发展也带动了其他相关产业的兴起,如网络商务。与此同时,由于互联网的裔效互动、个性匿名等特点,让消费者可1^放也的在朋友圈、空间一及王方平台网站发表就某商品的使用感受或相关意见,即在线评论。由于在线评论的客观、可信、全面,越来越多的潜在消费者在执行购买决策之前都会阅读在线评论来了解即将购买商品或服务的质量。K一atona在1955年的项研究中指出大部分的消费者在即将执行购买决策时会W提前咨询熟人的建议。随后,在1969年,Engel等人通过调研表明,超过60%W的人指出他们获得商品信息的最大来源就是评论。而在1971年,D巧等人发现,W评论能够改善消费者对商品的态度,促使进行购买行为。这些早期的研巧表明评论对于消费者的影响是巨大的。进入21世纪后,随着互联网的发展,评论传播的一阵地从线下面对面交流衍生到互联网中来,评论的形式也不再是单的语言交流、了,文字图片等也成为展示评论的媒介,而同时,评论的传播速度和范围也出现了成千上万倍的増长,评论在传统传播形式中传给5个人所用的时间,现在在W互联网上能传播给超过6000个人。一。目前,在线评论己经成为评论所有形式中最重要的个部分其对消费者W及企业都具有很强的影响力。(1)在线评论对消费者的影响。在线评论已经成为消费者消费前的重要参。考,对消费者的整个决策过程都有着指导性作用首先,其会影响消费者的购买决策。DoubleclickInc.在2005年的针对旅游业、户外运动业一半的消费者在执行网上消费前都会阅、汁算机行业的调研湿示超过一读在线评论类似的调研CIC公司在2009年也做过次,发现超过80%的消费1 合肥工业大学学历硕±研究生学位论文W者都会关注在线评论,哪怕自己没有特定的购买需求。一其次,在线评论会影响消费者的决策过程。消费者在决定消费之前般经历引起需求、确认购买方案、购买后行、知晓品牌、形成初步方案、评估初步方案为六个过程而在线评论的影响会贯穿整个过程,CIC公司的调研报告显示有34.6%的消费者是在通过阅读在线评论后而引起了胸买需求,56.3%的消费者是通,41.6%的消费者是通过阅读在线评论形成初步方案过闽读在线评论了解品牌信息,36..2%的消费者会阅读在线评论评估初步方案,587%的消费者通过综合在线评论确认自己的购买方案,在购买完成后仍然还有47.5%的消费者会再次查阔在线评论。(2)在线评论对企业的影响。在线评论已经成为推动企业发展,技术革新的重要因素。企业可W通过汇总在线评论的信息获得顾客对商品真实态度,并根据顾客的反映来进行技术革新、公司定位、改进服务等工作。同时,由于在线评论能够影响消费者的整个决策过程,所W在线评论也就与企业的盈利情况息息相关,受到企业的商度关注。,越来越多的企业已经认识到在线评论的重要,所方销售网站目前、直营网站都开始为在线评论的展示提供服务和平台。著名的电子商务网站亚马逊就W十分重视在线评论平台的建设,其累计的上亿条评论是其成功的关键因素。当然,生产企业也十分重视在线评论的宣传,例如2008年的王老吉在为四川灾区捐赠1tW么人民币后,紧接着就出现了《封杀王老吉》的帖子。通过地震捐款事件借势,,迅速提升了知名度,短时间获得巨大的利益策划了这样的在线曰碑营销。本文正是在数据化时代中,电子商务日渐普遍,在线评论收到巨大关注的前提下开展研巧的。1.2问题提出在线商品的交易由于商品的不确定性和卖家的不可控性,会导致消费者出现屯、理担忧,害怕付出比线下市场更高的成本。但随着在线评论平台的发展,在线评论己经成为消费者获取商品信息、卖家信用的重要来源消费者可W通过阅读已经产生消费行为的消费者发表的评论来降低自身的交易成本。但随着在线一评论数据的快速增长,在线评论的研究也出现了些问题。首先,如何识别有用评论;在传统的评论交流环境中,通常采用问卷的方式进行对评论的研巧。随着互联网的发展,在线评论,评论呈现的形式发生了改变的产生给新的研巧方法的产生提供了可能性一,但与此同时,任特定商品的在线一评论数目都是十分庞大的,而消费者的精力是有限的,无法逐阅读评论,通常情况消费者是希望能阅读到有价值的评论去帮助他进行决策。因此,如何识别有价值的评论并呈现给潜在消费者是十分有必要的。其次,影响评论有用性的因素大部分的平台都己提供评论有用性的投票系;2 第一章绪论uf。绕,帮助消费者获得有用性较高的评论但是综合Liu等人惭研把发现这样的评价体系会出现W下几个问题:(1)新发表的评论获得的有用性投票少,无法准确计算新评论的有用性。(2)无法排除人为干扰。企业为了达到盈利目的,会雇佣人员进行口碑操控,将正向的评论呈现给消费者。一基于W上,研究认为单纯的投票体系是无法决定评论是否有用的,条评论包含了评论自身一、评论者、店铺等很多的信息。W某个方面去预测评论是否有用都是有失公允的。因此一,本文首先提出套有效预测评论有用的模型。其次,能够分析出影响评论有用性的因素。1.3研究目的及意义在线评论由于具有信息量大、获取方便、传播速度快等特点而受到消费者和一些弊端企业的关注。而恰恰是由于这些特点却带来,例如,兀余信息多。因此,本文就是要帮助消费者在海量的评论数据中获取真正有价值的评论,并获得影响评论有用性的因素。本文研巧具有理论意义和实践意义。理论意义:(1)丰富预测在线评论有用性的方法。(2)分析获知影响评论有用性的因素,探究消费者阅读评论时的也理持征。实践意义:(1)建立预测评论有用性的模型,提高消费者或企业的筛选效率,提髙决策速度。(2)将真正有价值的评论推送给消费者,防止部分商家通过不良手段操控口碑,欺骗消费者。(3)为消费者提供更好服务,督促消费者认真撰写评论,促使电子商务健康发展。1.4本文主要研究内容基于在线评论研究中出现的问题,本文主要研巧面向在线商品,通过提出有。效的预测模型,解决预测在线评论难的问题1.4.1课题来源本文研究内容来自W下课题:(1)国家自然科学基金项目;基于协同训练策略的不完全标记数据流分类问题研巧(61273292)。3 合肥工业大学学历硕±研巧生学位论文(2)国家自然科学基金项目:未标记数据流中的迁移学习关键问题研巧(61305063)〇(3)教育部博±点博导基金:基于特征扩展的Web短文本数据流分类方法研巧(20130111110011)1.4.2主要研巧内容本文WYelp网站的在线商品评论数据为研究对象,通过文本分析获取可能影响评论有用性的特征,,,建立有效的预测评论有用性的模型实验分析特征判别对评论有用性预测有显著影响的特征。主要研巧内容如下;(1)针对消费者很难在海量在线评论中快速、准确的发现有助于执行购买行为信息的问题,,本文在文本挖掘技术的前提下结合多元线性回归方法研究可能影响预测评论有用性的因素,并在此基础上利用多元线性回归模型预测在线商品评论的有用性。已有的预测评论有用性的研究主要从分析评论的文本属性入手,一本文在此基础上,进步探究评论者属性和店铺属性对评论有用性的影响,并综一合H个属性的。14个的子属性构建个预测在线评论有用性的线性回归模型利用该模型评估W上子属性的合理性,并对评论进行预测分类。(2)针对上述模型中子属性之间线性相关性较高,容易造成参数估计的方差一增加,逐,方程不稳定等问题。本文将线性相关性较髙的子属性通过属性取样代入模型,通过在在线商品评论数据上的实验,获得性能最优的改进后模型。此模型在减少用于预测的子属性、降低预测评论有用性的成本的同时,提高了模型的性能。1.5论文架构本文共五章,各章主要内容如下:一第章,,绪论。首先介绍在线评论的研究背景并结合背景提出需要解决的。。,问题,W及这些问题解决带来的意义随后阐述本文的主要研巧内容和方法。最后,介绍本文的结构及章节主要内容第二章,,在线商品评论相关综述。首先就在线商品评论相关理论进行阐述,包括在线评论的发展历程、传播过程、传播因素和测量维度等,随后,介绍了在一线评论有用性预测领域的相关成果,并在这些研究的基础上,结合研究中的些间题引出本文研究方法。第H章,在线商品评论有用性预测模型及影响因素研究。基于己有研巧,首先分析了可能影响评论有用性的H个主属性:评论文本属性、评论者属性、店铺14属性,W及下属的个子属性,并在其基础上建立预测在线巧论有用性的多元线—RRS-L模型14性回归模型。随后,评估模型效果,并利用模型对个子属性分4 第一章绪论。。析,剔除对预测影响不显著的子属性最后,得出研究结论-,在第H章的研巧基础上第四章,RRSL模型的自变量冗余性分析。首先,RRS-L模型中涉及的性相关性较13个子属性进行线性相关性分析将;随后,将线一高的子属性从模型中取出,再逐代入,对相同评论数据进行预测,将实验结果进行对比,选取其中性能最好的模型作为改进后预测模型;最后,将改进后的模型与几种经典的二分类算法,如支持向量机、朴素贝叶斯、C4.5决策树等,进行。对比,通过实验结果分析验证了改进后模型的良好的分类性能。第五章,总结与展望对本文进行全面总结,并指出研究存在的问题和W后的研究方向。1.11.本文的各章节的逻辑关系如图所示,其中第王章和第四章着重解决了2节提出的问题。旨在能在海量的评论数据中帮助消费者准确、快速的寻找到能有助于执行购买决策的信息,同时,就具体哪些因素会影响评论的有用性进行研究,旨在揭示评论的哪些内容能影响消费者的购买决策,为消费者及企业提供具有现实意义的帮助。一第章:绪论研巧背景、问题提出第二章:在线商品评论相关综述基础理论及相关研巧A第H章:在线商品评论有用性预测模型及影响因素研巧RRS-L模型的自变量冗余性分析第四章;建立模型、改进模型,分析影响有用性因素^第五章:总结与展望总结全文,未来研究方向图1.1全文各章节遽辑关系图Fi.1.Loicrelationsamon化eresearchconte打tsofthisaerg1g邮gpp1.6小结目前,随着网络商务的普及,在线评论的有用性受到了越来越多的关注,其有用性的预测也取得了不错的成果。这些成果真有很好的现实意义,广泛应用于帮助消费者进行决策和企业技术革新等方面。本章首先介绍了在线评论的研巧背5 合肥工业大学学历硕±研巧生学位论文景,据此提出了亟需解决的问题化及问题解决后能带来的意义,随后根据问题提,最后出了本文主要的解决内容,介绍了本文的主要章节的内容和整体框架。6 第二章在线商品评论相关综述第二章在线商品评论相关综述本章将围绕着论文研究的理论基础展开,首先介绍在线评论的基本理论,包一括其含义、传播过程、传播因素及测量的维度;随后将简单介绍在线评论的些理论,进而引出预测在线评论的研究现状,结合其内涵引出领域目前存在的问题,进而提出本文的研巧方法。2.1在线评论的基本理论自出现贸易交换W后,评论就应运而生。最初的形式是线下的口碑交流。而互联网的产生。,网络在线评论进入人们的视线在线评论的传播过程相较传统线下口碑传播具有更多的维度和复杂性,但是却有着更好的可测性,这也是在线评论的传播特点和传播因素所决定的。因此在开始研巧在线评论之前,需要了解在线评论的定义、传播过程、传播因素和测量维度。2.1.1在线评论含义人们在进行贸易之前,总是会和自己的亲朋好友咨询贸易产品的情况,W帮助自己进行购买决策。随着商业的发展,人们咨询的对象不再仅仅局限于亲人、i4isi6i7]]][[[【朋友了,开始向权威人±咨询。Amdt、Westbrook、Anderson请Tax等人一将人们么间的这种区别于正式向企业问责的,仅关于商品质量或服务感觉的种tW相互交流定义为口碑,也称线下评论。国内,黄英、阐克儒等人也对线下评""一论的含义进行进步的丰富,将非盈利为目的作为交流评论的前提。随着互联网的发展,口碑的形式和范围都发生了变化,传播的平台延伸到了1(--mou气近年来网络,称之为在线口碑Wordofse),学者们对在线曰碑展开了p’26i]对在线日碑做出如下定义一:在线口碑其实是口碑的研究,种在线形式。指的是已消费的、潜在的消费者就产品的特性、服务的质量、品牌的价值、企业的一信誉等进行的种在线交流的行为,交流的形式是文字形式,交流的內容可能是正向的,也可能是负向的。口-:ai在线碑有着众多载体,如在线评论、网上论坛、空间、朋友圈、Eml。等,但上载体对消费者的影响作用并不相同其中,在线评论的影响力受到学一者们的致认可,在线评论指:评论者在自愿的前提下,W非商业为目的,积极主动的在互联网提供的平台中文本一、图片、视频等数字媒体形式发表对某,一Pwsi、。产品或某企业的态度使用感知等,并呈现潜在消费者大量研巧就在线口碑各种形式载体进行对比,得到的结论都指出:在在线口碑传播的所有形式载体中,在线评论是最有优势的,最利于量化分析、最具有影响为的。其优势在于:7 合肥工业大学学历硕±研巧生学位论文(1)面向人群更加广泛。这样的优势也是由于在线评论所处平台所决定的,其直接存在于消费者直接产生消费的平台,消费者参与程度高。(2)内容更加可信;广泛的参与度意味着在线评论没有针对特定的对象,不会产生领袖意见,众多信息会有多个指向,意见会更能反映消费者本身信息。(3)研究更加便利。在线口碑的形式是文字类型的,是非结构化文本,量化难度大,早期的研究主要集中在调研、问卷的形式,而在线评论除了能够提供非结构化数据外,还能够提供发表时间、评论等级等可量化数据,,极大便利了研究的开展。因此关于在线评论的研巧也越来越多,然而,无论何种在线口碑形式,他们最核也本质都是消费者在自愿的前提下,一一积极的发表就某产品非正式的使用感受。而在线评论只是其中的种形式,但一是却是影响力最大,,研究效果最具有代表性的种形式。随后本文将探讨在线评论的基础理论和相关研究等。2.1.2在线评论的传播过程基于在线评论的概念,可W将在线评论在传播过程中各个部分分别定为评论者/转发者、数字媒体、互联网平台、接收者这四个传播因素,具体的传播过程见图2.1。一一评论者发者—数字媒体一?互联网平台数字媒体?接收者^角色转换图2.1在线评论的传播过程Fig.2.1Thecommunicationprocedureofonlinereviews在上述过程中,由于在线评论的特点是可^异步,所1^1评论的发送和接收可一w不受时间、空间的限制,这也就给在线评论的传播提供了循环的可能性。在一次传播的过程中,担任接收者角色的消费者,在下个评论的传播过程中担任的可能就是评论者(转发者)的角色。目前,就在线评论的研巧非常广泛,不同的学者从不同的出发点进行了深入的研巧和探讨,包括二元分析理论、归因理论等等,但都能够在W上的传播过程中找到相应的根据,研究对象也都不会脱离W上四个传播因素。2.1.3在线评论的传播因素在上述的传播过程中,评论者/转发者、数宇媒体、互联网平台、接收者这四个传播因素组成在线评论的主要传播过程。其中,评论者/转发者主要用于发表或转发评论;数字媒体是在线评论的表现形式,评论者/转发者将评论W数字媒体的i形式上传至平台,平台lli同样的数字媒体形式呈现给接收者i互联网平台为在线8 第二章在线商晶评论相关综述评论展示提供了场所,也为在线评论提供了异步传播、多对多的传播、开放环境、隐秘性等优势;接收者阅读评论并进行信息处理,决定是否采用这条评论、是否将这条评论转发共享。为了量化在线评论,很多学者对W上的传播因素展开研究,本文在前人研巧基础上.2。,对W上的传播因素进行更加深入的了解,相关汇总如图2 ̄ ̄ ̄评论者/转发者数字媒体互联网平台接收者?专业性(星级)?长度?平台专业程度?阅读动机?历史记录?句子数(星级)与?专业程度。吟?传播动机?单词数?平台的接收程度?接收态度?评论质量?发布天数(销售量)……......?星级?平台收到的评论?有用信息数目图2.2在线评论四个传播因素及其内容Fig.2.2Thefourfactorsandtheircontentsofonlinereviews2..14在线评论的测里维度一在线评论较于传统的线下口碑的个重要优势就是其具有良好的可量性。在线评论文本形式展现,结合平台提供的多个测量因子,为接收者来量化评论的质量和有用性提供了极大的便利。在2.1.3节传播因素的分析为研巧提供了量化在线评论的维度。为帮助接收者了解在线评论的有用性,可从评论者/转发者、数字媒体、互联网平台这H个因。素着手,这样的测量维度为开展预测评论有用性相关研究提供理论基础在线评论的数据形式为其创造了良好的研究优势,大量针对在线评论的研巧一些相关研究受到学者们的关注,下面我们将介绍在线巧论的。2.2在线评论的相关理论在线评论能够为人们提供大量信息W帮助其进行决策,提髙人们的决策效率。基于此、,学者们针对在线评论进行大量研巧。本节将介绍在线评论影响消费者屯理的相关研究,包括信息过载与决策导向理论、归因理论和顾客感知理论。这些理论指出了研巧在线评论有用性的必要性,同时也为在线评论有用性的预测提供测量维度。2.2.1信息过载与决策导向理论互联网的快速发展带动了网络商务的发展,为人们的生活带来极大的便利,、同时由于网络的隐匿强,受众广成本低等特点,造成大量的评论数据产生,其一竖无用甚至恶意的评论中包含,而人脑处理信息的速度有限,很难在短时间内9 合祀工业大学学历硕±研巧生学位论文分辨真伪,获取真正有价值的信息。这种情况就是信息过载(InformationOverload),其带来的是降低消费者决策效率,延长决策时间。当今快节奏的生活方式要求消费者在短时间内做出决策,而在线评论的非结构化数据形式让人很难短时间里获得真正有价值信息,更不用说在海量在线评论中获取有价值评论了。Jacoby等人在研巧中指出:当消费者面对少量信息时,人们通常能集中精神获取那竖让人印象深刻的信息,但当信息量过大,超过人们承PSl。受阔值时,评论的效果就会大大下降,反而拖累决策在这种情况下,信息过载的问题凸显的更加明显。在线评论决定着消费者两个方面的决策;1、是否接收信息,2、是否推荐评P41。论从推荐的角度来说,评论的数量的增加意味着涵盖商品信息增加,有助于消费者获得全面的商品信息,然而从接受的角度来看,评论的增多又会增加决策的负担,,阻碍消费者进行购买决策影响评论传播,因此如何解决评论信息过载的影响,快速获得有用的评论将是本文的研巧内容。2.2.2归因理论归因理论由RHeider在1958年提出,其主要内容是:人们的行为或态度通常一,、、二是外受到两个方面的影响个是内在因素,包括个人兽好情绪性格等;P9在因素,包括环境、他人等。这样的理论也被应用在在线评论的研究领域,Senennan一和L指出:归因理论能够解释消费者对评论者发表评论原因的归因,种是一外在的商品或店铺原因,种是评论者自身原因。即人们对评论的感知会受到归因的左右,简而言之就是当消费者觉得评论者发表的评论的归因为外界因素,那么消费者就认为商品或服务确实存在问题,,这种情况下评论的价值就会增加,相反,意,,,若归因为自身因素味着消费者认为评论者自身存在问题那么评论的pq真实价值就会降低。RHeider还提出了归因偏差的概念,他指出消费者为了帮助自己规避风险,可能会将W前的归因改变,人们会选择更少风险的方向改变不利自己的归因,这就Py。产生了归因偏差即消费者感知到较高的风险的时候,为了达到保护自身利益的目的,而将原来的内在归因改变,向外界因素转变,从而相信评论提供的信息基于W上可知,消费者判别在线评论,同时受到了归因和自身利益保护的影响,除,这样的理论为本文研巧消费者感知评论有用性提供了理论基础了评论本身因素外,还要考虑评论者的因素。2.2.3顾客感知理论、mond屯理学中延伸出的成果RaBauer认为消感知理论是从,y费者的购买行为一P。其实就是种承担风险的过程,因为其无法预测贿买的结果是好还是坏叫t外,10 第二章在线商品评论相关综述感知理论还表明感知风险的能力受到外在情境的影响,比如Lapierre指出顾客的感知会指导其选择消费店铺进行购买决策,而消费者的感知就包含商品摆放、店铺氛围等外在环境PS1。感知理论表明感知风险与在线评论存在重要的关系,Arndt指出消费者在感知、风险的过程中最主要降低风险的方法就是获取有用的可靠性高的信息,而在线评论恰恰能做到这点。同时,Voyer等人的研巧表明在高风险的情况下,在线评论对决策的影响力越发明显,消费者也越会从在线评论中获取更多、更详细的信P91息。综上、理的角度揭示消费者如何利用在线评论来规,顾客感知理论从消费者屯避决策过程中的风险。该理论为本文探讨在线评论有用性提供理论支撑,同时也为测量在线评论有用性增加店铺这一测量维度。2.3预測在线评论有用性的相关研究在线评论由于其独待的优势得到了大量的关注,针对其开展的研巧也为后续的工作提供了理论基础。在2.2节中,信息的过载指出研巧预测评论有用性是必然的,而归因理论和顾客感知理论又为研究评论有用性提供理论基础。由此可见,预测评论有用性,,为消费者提供有用信息帮助消费者决策是重要的。下面,我一些预测的主要方法展开介绍们就目前领域中。2.3.1径向基函数模型函数逼近能够有效解决预测定义在连续和离散空间的问题一。个强大的函数一一逼近不仅能准确地用个值代表个所经历的状态,也能大概估计到没有经历过状态的值。最常见类型的逼近器是线性逼近,这类逼近比较简单,计算成本较低,但结果不可靠。如果输入和输出之间的真正的关系是非线性的。这样就不得不依靠非线性逼近,如RBF。径向基函数比其他常用画数逼近器的简单得多一。当个函数的局部需要了解和掌握时,径向基函数将会给予极大的便利。例如,当在预测评论有用性的时候,一一我们要掌握评论的专业水平送部分的作用时,般就会采用该方法。径向基函tW数由于其髙度的灵活性,已被广泛应用于许多领域,包括金融和图像处理等方面。X、点/式为径向基函数的值取决于输入向量和中屯之间:/,其最基本的形-RBF=-1玄义仍心片))(公式2.1)做/,)f((其中,/是高斯或其他函数,而2是尺度。表示输入向量X和中也点//之间的距离,度量的标尺由S定义。WU2008年,Liu等人基于径向基函数建立了模型。该研究在分析可能影响评论有用性的因素后,将影响评论有用性的因素分为H个部分,分别是评论者的专11 合肥工业大学学历硕±研巧生学位论文业水平、评论的写作风格和评论的时效性。在研究中,/是髙斯函数,距离度量选择为欧氏:,所六因此-从)=诉維。/沪)(公式2.2)CT-yT^==---由于采用的是商斯径向基函数:exi/,n/b,而y(//)(x/)〇其中)X、也被称为径向基函数的扩展。直观地说,和中屯点^距离越远,;,函数值越小=''=.义.^..当Xy?+11+2+扔++克,。同时,多个径向公公2风片时函数出现峰值一基函数可W联合建立个函数逼近:=x0乂■&'/(.3)g()乏抑I/,)公式2在Liu的研巧中,将评论者的专业水平和写作风格作为两个局部因素进行径向基函数建模。而由于用于研究的电影评论的有用性是随着时间的推延为衰减的,所W针对时效性的建模并不是采用径向基函数的,而是通过公式2.4。_趴+d=hte(公式2.4){)最终,L山等人结合上述H个方面提出了完整的模型,通过H个分量的子模型加权得到评论的有用性得分。—-+dWW..义="'*'+u'V'+。re(公式2巧,Wy.Sf玄抑I/)9之I,幻)se//li、、r其中,pg分别是H个分量的权重。一在Liu的研巧中,通巧实验,将判断个评论是否有用的阀值定位化5,即当通过模型计算后,评论的有用性得分大于0.5,即是有用的评论,反之即为无用。Liu的研究采用较为简单的函数逼近,当然还有采用较为复杂的模型,例如多层感知器神经网络。2.3.2多层神经网络算法在径向基模型中,Liu的研究用了较为少量的预测因素,而在大多数的情况下,用于预测评论有用性的影响因素是较多的。在这种情况下,既能检验影响因素的影响程度,又不需要太多的先验假设的人工神经网络受到了关注。4211。与传统的基于模型相比,人工神经网络具有!^^下几个优点首先,人工神经网络采用的是数据驱动的自适应方法,很少需要或不需要先验假设;其次,人一种通用的函数逼近器.2.2节中所描述的函数逼近器的工神经网络是,它具有在2优点,同时,其特别适合处理那些具有复杂变量,且变量之间关系复杂的非结构化问题。在2014年,SangaeLee和JoonYeonChoeh首次在预测评论有用性的领域引j21 第二章在线商品评论相关综述43t入人工神经网络,提出HPNN算法lHPNN算法采用的是反向传播的多层感知器神经网络,在为研巧提供显著的预测能力的同时,也帮助人们识别出对评论有用性预测影响较大的评论属性。在SangaeLee等人的研巧中,他们总j共汇总产品数据、评论者感知属性和评论文本特征H大属性,这王个属性中又包含包括产品、评论人登记、、评论长度等20个子属性类型、产品销售排行评论极性。通过如图2-3的神经网络图获得最终的预测结果。Output的Mh週…?脚arlyeVVIV2V3V4V1920图2.3反向传播神经网络F-ig2.3ThebackroaationneuralnetworkppgHPNN算法采用反向传播的算法,这种算法简单,性能好,利用迭代梯度法一。来估算权重,并能够估计个多层前馈网络是实际输出和期望输出之间的差别在HPNN算法中,提出了相对强度的概念,如公式2.6。厶式2.6巧i獨距()。如其中,Ww表示第A个的隐藏单元和第/个输入单元之间的权重,表示第7个输出单元和第it个隐藏单元之间的权重。i?是第/个输入和第/个输出变量之%_间的相对强度。这个相对强度将会直观的展示输入属性和最终输出结果,即与评论的有用性么间的关联程度。HPNN算法第一次将神经网络引入了在线评论的研巧领就并获得了良好的效果,有效的解决了多个变量其相互关系复杂的问题。13 合肥工业大学学历硕±研巧生学位论文2.3.3概率分布和置信度,同随着网络商务的快速发展,消费者们越来越愿意在互联网平台上发表评论时平台的运行商们也观察到这样的现象:平台上提供的评论推荐系统能够有效的[W,帮助消费者获得信息,从而有助于提高销售额和收入。因此在网络商务的交易平台上提供商品评论的有用性投票机制是各个互联网商务平台普遍的共识,如一一136人阅读,其中有130人觉图2,亚商品的某评论共有.4所示马逊网站中某得有用。商品巧论130/613人从为化巧接有巧rtiWrtr.任巧奢单(^4,2年10月1曰诗也g巧马巧奋’户|白。4巧某玄星化二I)--a巧茫的6品:THERMOSBB巧是a空不巧巧巧a巧)化500DPLSOOmUS)?肿,??行么!若巧妇前阁货?马巧S?包某玄化釘日.好S多巧了敗I面S比巧但上面全是日文肖香A巧沒則国享綿巧I巧巧前舍子主賊巧爱哀?,?|?madeini?dca运巧化田巧西巧1巧巧璧巧击,巧乘、哀读了至面的巧子?S个苦巧诗的乏子度也不巧这maiaysa不星maemhm庭巧巧冉函外的月兵巧国整,?,>I,?ft马来西2度巧化中国I化董?巧夏巧巧去巧票?巧了巧巧巧也巧巧书里面黄巧南宾比巧否巧香末不苗巧;化担巧记义巧系爱f?系巧_一.*,..^1芭小39玄玄28.4度咨过巧天的试两,巧巧巧留巧:巧巧詞比.与巧3^39元的子巧头巧子比巧巧巧吝重的巧子0?巧巧子的巧小垣与円¥元的子巧巧子。,,’.’3.S巧,巧>99.6度的巧木巧方6小玄130.7度巧巧月辜的巧子至运60S运巨8巧的5是.I.,许□的培计巧卓不会巧不巧巧??出的靈.巧的的话.竞主i巧巧子的巧巧东區巧出水靈下手至出大*的水拓*63居轻惠的木巧窝吝S還巧当巧巧吝巧近]??,出?巧i不肤定巧.6水香島巧致巧S弓拉呆巧巧圾巧¥吝最运君.舌方旧巧比K召及?6水□巧a巧下苦扫泣巧巧0巧下C图2.4亚马逊网站中评论有用性投票机制的例子’meFi2.4ExamAmviewhelflilne巧votinchanismg.pleofazonsrepg这样的投票机制直观的将毎条评论收到的有用性投票呈现给潜在的消费者,。帮助他们进行购买决策,因此受到了消费者的喜爱,也受到了学者们的关注W20anan该机制展开研巧,研究中指出这样的投票机14年ZunqigZhg等人就一。,制虽然提供的便利,但是有定的局限性首先送种机制忽略了有用性的分布信息一特。平台中信息量庞大,具有相似特征的有用性分布完全可W用来提高某一定评论的有用性估计值,这种机制将具有相同有用性投票百分比的评论。其次样对待。这虽然是不合理的,例如有用性投票百分比同为0.9的两条评论A和B,A评论共有10个人阅读,其中9个人觉得有用,而B评论共有1000个人阅读,。共有900人觉得有用,明显送两条评论的置信度是完全不同的。此基于W上,ZunqiangZhan等人结合评论的有用性分布信息提出新的方法g一入了先验分布和后验分布,收到有。假设条评论收到总票数为"方法中,他们引一,y,那么y对于评论的和"来说可W视为个随机用性投票为,有用性程度为P变量的二项分布;,即为Xn-x=-=lx〇U...n.(公式2.7),,,/xWp)(;)p(的,|p的后验分布为;当n人中有X人发现该评论有用,则f的=(公式2.8)口'J。/如础)馬脚命一其中爲佑;是公的先验分布,通常是个公分布。所有评论的有用性分布信息41 第二章在线商品评论相关综述都可通过调整先验分布的参数来覆盖。当有用性分布信息没有时,先验分布通常是化1)的均匀分布或参数为儿。的公分布,其他情况下,公分布的参数(口,幻定义为:-=-幻=()61.9P,(巧(公式2)驚^駕(其中,P和的是研究评论的有用性投票百分比的样本的均值和采样方差。X+A-P的后验分布Wnx+6的片分布,也就慧说:(内参数/加邮)譜裁(公式2竭基于的后验分布,评论有用性的期望值可表示如下:=/>/加伽)批片P点雜縱邮哉.(公式2.w这样,所有的有用性的分布信息都被考虑了。然而,为了区别有同样有用性。在,投票百分比的两条评论,研巧中引入了置信区间给定显著性水平a的情况下一个最小的长度区间[C:找到,巧,满足xd=-af(pl2.12ifpl)p(公式)lx这样相同的有用性投票百分比的评论也将有不同的置信怪间,区间越宽表示45t屯、消费者对评论的有用性信越低。ZunqiangZhang等人惭算法建立在己有的有用性投票的基础上,合理的利用了有用性的分布信息,也有效的区分了相同有用性投票百分比的评论。2.3.4多元线性回归模型随着网络金融竞争的日益加剧,电子商家的竞争越来越激烈。商家为了提高自己销售倩况,也,増加收入开始关注平台中的评论部分。部分商家为了降低竞争商家的竞争力,而使用不道德手段进行恶意评论,对别的商家有价值的评论进行恶意投票等。这样的情况也给预测评论的有用性带来了新的挑战,如2.3.3节的从有用性投票来入手,去预测评论的有用性显然是不合适的。基于W上的情况,越来越多的研巧开始综合考虑评论的多个方面,将多维属性作为预测评论有用性的影响因素,W达到能够防止部分商家或生产企业的恶意评论带来的错误,帮助消费者获得真正有价值的信息。在这种情况下,多元线性回归模型开始越来越多的被使用于预测评论的有用性。一种有效的方法多元线性回归模型是统升分析中,主要用于解决多个因变量tWWl都对自变量产生作用的情况。这个特点也恰恰是预测评论有用性领域中所需要的一,因此,多元线性回归模型成为领域的种主流预测模型。多元线性回归模型的主要形式如公式2.13所示:15 合肥工业大学学历硕±研巧生学位论文=...‘=:+...+ii+?+1方+02。+:1£3...X£i]23n(公;.......13)^p,,式2片风48在t]2007年,Ghose采用了多元线牲回归模型进行了实验,将评论的主观性平均槪率(A;iVo6W)、主观性分数的标准偏差(公ev/W>W)、评论的情感变量g((MO公货L4咒)、评论的阅读成本(獻ad)和评论的发布日期距商品发布日期(货巧姑>oe。t)作为预测评论有用性的五个属性随后在2010年郝媛媛又在其基49一tl础改善了模型,进步丰富了用于预测的属性。在其研巧中,共假设了如评论的长度(獻化/)、正负情感打分(化加巧)、正负情感倾向概率标准差(公evAw)等11个子属性作为用于预测的属性。在对子属性的检验中,通过逐步回归法,将并不满足要求的其中5个子属性删除,获得最终真实的模型。利用多元线性回归模型进斤预测的还有很多研究,例如郑时在2011年针对旅swP11t。游评论数据做出的预测,王平等人在2012年在其实证研巧中提出的模型正也恰恰说明了多元线性回归模型在预测评论有用性中的良好性能,本文的第H章也将在多元线性回归模型的基础上展开研究。2.4小结本章主要为在线评论有用性的研巧提供理论基础。首先介绍了在线评论的基、、本理论,包括其含义传播过程传播因素和测量维度,简要介绍目前在;随后线评论领域的一些主要理论,信息的过载指出预测评论有用性的必要性,而归因理论和感知风险指明预测评论有用性的维度;最后,介绍了目前用于预测评论有一些方法用性的,送些研究方法为本文后面的研巧提供了模型基础和理论支撑。16 第H章在线商品评论有用性预测模型及影响因素研巧第H章在线商品评论有用性预测模型及影响因素研究网络商务的发展产生了大量的用户在线评论,然而其中存在部分无效,无用一甚至恶意的评论,给消费者的阅读和参考带来定的负面影响,。因此如何识别在线评论的有用性受到越来越多的关注。已有的研巧主要针对评论的文本属性进行分析,取得了较好的预测结果,但实际应用中影响评论有用性的因素较为繁杂。一本章节在评论的数字媒体文本属性基础上,进步研究评论者属性和互联网平台一中店铺属性对评论有用性的影响,并综爸王个方面构建个预测在线评论有用性的线性回归模型。在实际数据集上的实验结果表明了该模型具有较好的预测能力3.1引言近年来,互联网的飞速发展给人们的生活带来了巨大改变,其中网络商务的出现给人们生活带来了极大便利,然而与此同时,网络销售的信用风险和商品不确定性给消费者的购买决策带来很多困扰,,,所W如何帮助消费者获得有用信息减少决策成本受到了越来越多的关注。随着网络交易平台上大量交易的发生,海量的在线评论信息也随么产生。评论能够为人们提供大量的产品信息和用户体验从而引起研究者的关注。目前,己有大量主题分类、情感分类的工作针对评论数据斤展研巧。wy一st些文献表明评论的有用性会影响潜在顾客的行为倾向,然而网络的低成本,、隐匿性使得人们可W在网络上畅所欲言这就使得在线评论的数据过于庞一些无效大,并且质量难W保证,因此就产生了,甚至恶意或误导性的评论,给用户的决策带来了干扰。近年来关于评论有用性的问题研巧受到很多学者的关注。W胃45^48—W56—£目前己有很多研究做了有意义的尝试。例如,ZunqiangZhang等人针对企业官网或H方网站上提供的评论投票机制展开的研究。该研究针对""网站中把评论有用投票数作为评论有用性值的情况引出研究方法,/评论总投票数用二项分布表示评论获得有用投票的概率,通过对概率的先验分布和后验分布的,,假设获得有用性的期望值,该研究有效的纠正了网站推荐系统的错误同时根据后验分布和给定显著性水平计算置信区间同于区分推荐系统中有用性值一样的,不同评论。但该预测方法依托于网站的推荐系统,不考虑其他因素完全依靠于一企业网站或三方交易网站提供的投票机制,这给预测带来了定的局限性,即当一一条新的评论出现或条评论的投票数为零的时候,该预测方法是无法使用的。当然,大多数的预测模型还是通过分析影响评论有用性的因素,建立模型来一进行预测的。YangL山等人引入径向基函数搭建模型就是其中种。径向基函一、种函数逼近器,数作为,其值取决于输入向量与中屯点之间的距离在其研究中17 合肥工业大学学历硕±研究生学位论文将影响评论有用性的因素归纳为兰个方面分别是评论者专业水平、写作风格和时效性。YangL山等人根据H个影响因素的不同特性分别建立子模型,针对评论者专业水平、写作风格搭建的是径向基函数,而由于实验商品类型是电影,评论的,故YanL时效性会随着时间逐渐减弱giu等人针对时效性建立的是随时间指数衰一减的指数函数,最终综合H者获得最终模型。该模型简洁灵活,具有定的分类能力,但模型的缺点是明显的。首先,其考虑的影响因素太少,仅仅S维。其次,模型中关于时效性的部分由于商品类型是电影而定义为评论的有用性会随时间推移而减弱,这种情况在其他类型商品的评论是不成立的,这意味着模型只能用于预测那些时效性和电影类似的商品的评论有用性;还有就是模型中关注到评论者专业水平也仅仅定义该评论者发表的评论针对什么类型的电影为主。一部分研究方法在之前的研究基础上汇总了较多的影响因素用于预测评论的43一t3有用性。SangjeLee等人的多元神经网络预测模型就是其中种。他们的研巧第一一次将人工神经网络引入了预测评论有用性中,丰富了领域的研究方法,具有定的创新性。SangjeLee等人汇总产品类型、产品价格、销售排名、评论长度等20个影响因素作为输入层,通过隐藏层的处理,输出评论的有用性值,该模型的优势在于需要假设少一,同时可计算每个输入变量和输出值之间的相对强度来表明输入变量对输出的贡献大小。然而根据在前文的测量维度的分析,在这个方法中模型包含的影响因素虽然多但并不全面,同时并未考察影响因素之间的线性关系的强弱,这20个影响因素中较多因素是具有极强的线性相关性的,对于模型的稳定存在一定的影响。一目前,hos多元线性回归模型是用于预测评论有用性比较广泛的种方法,Ge4859s[][^]i等人很早就开始这方面的研巧,。在国内郝媛媛、郑时等人在Ghose的研P9UW巧基础上改善了模型的性能,取得了良好的效果。在郝媛媛的研究中,其基于理论基础就评论正负情感、评论内容平均正向情感倾向、评论内容政府情感混杂度、在线评论标题正负情感、评论发布天数等11个可能的影响因素提出假设,,剔除了其中6个影响因素通过对YahooMovies的评论数据的训练,得到最终模型,实验的结果表明模型有着良好的预测性能。基于郝媛媛等人的研究,可W得到多元线性回归模型在预测评论有用性方面具有良好的分类能为,而且能够有效一的分析每个自变量对评论有用性值的显著性水平,然而,对之前工作的深入研究后发现郝媛媛等人用于预测评论的有用性的因素全部集中在评论的文本属性,且因素之间相关性较高一,送对于模型的分类性能和稳定性有着定的影响。综合上,用于预测评论有用性的方法不少,且都有着不错的分类性能,但是存在着一个共同的问题就是预测评论有用性的影响因素都集中的评论的文本本身,a山F.Lazarsfek严咕其。然而在实际中,影响评论有用性的因素较为复杂。P18 第H章在线商品评论有用性预测模型及影响因素研巧关于传播学的研究中指出,绝大部分的人在开始自己的行为之前,都会潜意识的遵从有威望的人的意见。在网络贸易上,这项研究依然适用,那些购物历史较长,有经验的、发表大量评论的人发表的评论往往会有更强的指导性,对消费者具有更强的指引性。因此,我们认为评论者的属性会影响评论的有用性。Lapierre在其关于市场经济学的研巧中表明顾客的感知价值会指导其选择消费店铺进行购买决策。而店铺整体氛围就是影响顾客感知价值的很重要部分。H.vanderHeijden和T.Verhagen指出;网上店铺的良好形象有助于选择店铺进行消费,同时他指出有用性和值得信赖是构成店铺形象的因素。所^,对于消费者1一来说,个具有很好星级的且近期成交量高的商铺将会受到更多顾客的光顾,相应也就会受到更多的评论数目,也就意味着会获得更多的有用性评论。基于W上,。本文认为影响评论有用性的因素除了文本属性,还包括评论者属性和店铺属性一因此,本文将结合评论文本属性,进步对评论者属性和店铺属性进行研巧。并一个拟合度更高的预测模型在郝媛媛等人的研究基础上,构建,进而提高预测的效果。3.2研究方法一不同于之前领域中的研巧,本章提出个同时考虑评论文本属性、评论者属性和店铺属性H方面因素的预测在线评论有用性的多元线性回归模型。首先,本节将对评论数据进斤分析,获得用于预测评论有用性的属性,随后,基于分析得到的属性搭建预测模型。3.2.1属性获取实验数据涵盖3个主属性和14个子属性。主属性分别是评论文本属性、评论者属性和店铺属性,其中评论文本属性包括6个子属性、评论者属性包括5个子属性、店铺属性包括3个子属性。相关属性及其描述见表3.1。在分析中,我们得出同时涵盖评论文本属性、评论者属性和店铺属性的预测,表现都是最好的模型无论在模型的拟合度上,还是在预测的精度上,这些分析3.3.3结果在节的结果中有所显示,这个结果支持了本文中同时选挥王个主属性作为预测轉征的行为。表3.1变量解释Tab.3.1Explanationforvariables主属性子属性描述LenRe评论的K度评论文本属性(Heview)NumLi评论的句子数目19 合肥工业大学学历硕±研巧生学位论文NumWo评论的单词数目NumMaWo评论主干单词数目ElapsedDate评论的发布天数StarRe评论己款得的星级AveStarRer评论者的平均星级NumReRer评论者发表评论总数论者属NumUse评论者收到useftil投票总数(Reviewer)NumCo评论者收到cool投票总数NiraiFun评论者收到ftmny投票总数Star別店铺星级胃fTradVo店铺近十天订单数目(Store)NumReSt店铺收到的评论总数3.么2模型构建多元线性回归模型是统计分析中一种有效的方法主要解决多个自变量对因变量产生影响的相关问题,同时能够检测出自变量对因变量的影响大小,剔一除对因变量没有影响的自变量,最终建立个最优的多元线性回归模型。本章中选择的预测模型是多元线性回归模型。在郝媛媛等人建立的HYY预测模型基础上-L,本章构建了RRS模型,该模一一一型不再单单只包含评论文本属性或其他某种单属性,而是种同时涵盖评论文本属性(Review)、评论者属性(Reviewer)和店铺属性(Store)的多元线性回。归模型,具体见公式3.1=*+*NLogCHelpful^a+yflogCLenRe^j^^l〇gCumL〇j^+j2**l(mWo^+^lo(NumMaWog^Nu/^〇y+]^g4*w*片/og(風。e孤幻化+片(及w化)+/b56AveStarRer^log^NoReRer^+**口log^NumUse)+lo^NumCo)+9hgb*(*loumFu)+?lo(TradVo)+g.Nja/g.j3(公式31)*口tog心N誦ReSt)+Ukt20 第H章在线商品评论有用性预测模型及影响因素研究其中,a、A是常系数,对于模型中部分数据波动比较大的自变量,为让数据。相对稳定而通常取对数处理,为误差项3.3实验结果与分析。其次-本节首先介绍实验所用数据,并对数据进行初步分析,对比RRSL模型在不同主属性下的表现情况,随后在训练模型过程中测试子属性的显著性,获得校正的RRS-L模型。最后,我们将对比相同数据下不同基分类器的分类能力。3.义1实验数据实验数据来自美国著名的点评网站Yelp。Yelp是目前最大的点评网站,其数量庞大的入驻商家和客户群让其评论信息相较其他网站具有更强的广泛性和针对性。通过解析网页、爬取了自2005年3月到2013年1月在亚利桑那州进行餐饮消费而产生的评论,涵盖在12742个店铺中消费的43873名顾客发表的229907条一评论。同时,数据也包含了些训练价值不大的数据,例如获得投票数为0或1的评论、有用性投票为0的评论、近期店铺成交量极低的评论数据等,这些数据反映的情况比较极端,得到的结果代表性差,所W在实验中将这些数据删除。最后,。,得到口941条训练数据4676条测试数据随后,人工对4647条测试数据标注。通过A和B两名程序员对W上评论标记""""一有用或无用,再根据kappa系数计算他们之间的致性。最终获得kappa系数一致为化7720,显示两名程序员标记大体,数据可信。3.32.变量的初步分析,模型中含有多个变量,可W认为这坚变量都是连续的本文对所使用数据集一。进行了统计,并根据统计结果对实验的数据进行进步的处理,统计结果见表3.23-表.2RRSL模型变量描述性统计-Tabittistilith.3.2DescriptvesacsofvariabesneRRSLmodel变虽最小值最大值均值标准差Helpful0.0710.610.27LenRe2450681065.58724.58NumLi11306.795.54NumWo61152226.36153.24NumMaWo6703133名690.6521 合月E工业大学学历硕:t硏究生学位论文ElasedDate152828868.26542.33pStarRe153.761.13AveStarRer153.750.40NumReRer12587175.40237.43NumUse124293610.991552.36NumCo1224102巧.781325.3124519377.42NumFun11125.03StarSt253.850.45TradVo3229779%.032378.88NumReSt38化247.29187.犯由表3.2可见,部分自变量的数据波动比较大,会影响到实验结果的准确性,因此对LenRe、NumLi、NumWo、NumMaWo、ElapsedDate、NumReRer、NuinU化、NumCo、NumFun、TradVo、NumReSt这些自变量数据进行取对数处理。3.3.3主属性分析一是属性的分析本节中将从两个方面考察我们的模型,;通过涵盖不同主属性的模型性能分析,获得最优的预测模型,再通过实验剔除不显著的子属性,获得最终校正后RRS-L二是基分S-L模型,类模型对比,将最终的RR模型与其他基分类模型对比,测试其分类效果。本章在评论文本属性的基础上加入了评论者属性和店铺属性,添加的属性对于模型显著性等方面的影响如何还需验证。因此,为研巧不同属性对于模型的影一响,,我们采取控制变量的方法,分别采取随机选取两个主属性随机选取个主一-属性和RRSL模型对比:、,对比的指标包含模型显著性指标F统计值模型22—和校正决定系数Ad—拟合度指标决定系数R.R^及数据差异性指标剩余j标准差RSE。具体见表3.3。22 第王章在线商品评论有用性预测辕型及影响因素研巧表3.3涵盖不同主属性的模型的指标对比Tab.3.3Compariso打ofmodelswi化姐fere打tmai打attributes-'指标22P统计值艮Ad.RRSEj模型RRS-L型模乂0.25460.2巧90.4121评论文本属性428.90.25300.25240.4125&评论者属性评论者属性&6610.两个主属性.2493024890.4134店铺属性评论文本属性1140.06140.06090.4623&店铺属性评论文本属性132.60.05400.05360.4641一评论者属性920单主属性.10.24820.24790.4U7店铺難巧30.00480.00460.47603-由表.3可见,RRSL的F统计值是365.8,F检验显著,表明模型线性回归-关系成立。由表3可见,与含有两个主属性的预测模型相比,RRSL模型决定系222数R、校正决定系数Adj.R都是最高的。具体来说R比含有评论文本属性和评论者属性的模型高化0016.00巧,比含有评论者属性和店铺属性的模型髙0,比含有2932d.R评论文本属性和店铺属性髙化1,A比含有评论文本属性和评论者属性的模j型高0.0015,比含有评论者属性和店铺属性的模型化0050,比含有评论文本属性30。-和店铺属性高化19,表明模型的巧合度最好同时在剩余标准差RSE上,RRSL也优于含两个主属性的模型,分别比含有评论文本属性和评论者属性的模型、含有评论者属性和店铺属性的模型、含有评论文本属性和店铺属性低化0004、0.0013-和0.0502L。,这表明了RRS模型预测值误差最小,预测的精度高一-L模型与单主属性的预测模型的对比中-L此外,RRS,可W看出RRS模型2一民、.0064和0分别比单含有评论文本属性评论者属性、店铺属性高0.2006、0.2498,2一000300060Ad.R分别比单含有评论文本属性、评论者属性、店铺属性商.2、.、j一-、和化2493。而在剩余标准差RSE上,RRSL模型分别比单含有评论文本属性评论者属性、店铺属性低0.0520、化0016和0.0639。综上可W得出包含H个主属性-L(评论文本属性、评论者属性和店铺属性)的RRS模型是本文预测评论有用性的最优模型。一主属性的预测模型的对比中在含单,我们可W看出含有评论者属性的预测23 合肥工业大学学历硕±研究生学位论文22R.R0.1942和0.1943模型的效果最好,其和Ad商于含有评论者文本属性,商于j含店铺属性的模型0.2434和0.2433。而RSE分别低于后两者0.0504和0.0623。与一个主属性的模型对比中此同时,我们在含有两个主属性和含有,发现是否包含评论者属性对于模型的性能影响很大。在表中,我们可看到含有评论文本属性22一和评论者属性的民和Ad.民分别是0.2530和0.2524,比含单评论文本属性的模j型分别商了0.1990和0.1988。而民犯却比后者低0.0516。同时,含有评论者属性22一和店铺属性的模型的R和Ad.R0.2493和0.2489分别是,比单含店铺属性的模j一型高了0.2445和0.2443RSE比后者低0.0紀6。这含评论文本,而说明,无论单属性还是店铺属性的模型一,当加上评论者这属性,模型性能都得到很大的提高。基于W上可见一,评论者属性是影响巧论有用性的个主要因素,对于预测评论有用性准确性有着重要影响。3.3.4子属性分析在对RRS-L模型的训练中发现并非本文中所有14个子属性对于预测评论有用性的影响都是显著的,且不同的子属性在不同的显著性水平上影响也是不同的。t62""""因此嗦考察各个子属性在.、.、,为了研巧这个问题,本文使用T检验005001""兰个水平上的显著0.001化结果见表3.4。表34RR-.SL模型各子属性的显著性水平描述b4-Ta.4ThesiificantleveldescritionofeachsubattributeintheRRSLel.gnpmod******显著星级?LenRe、ElapsedDate、NumLi、NumUse、NumCo、NumFun、StarRe、子属性NumMaWo、StarStTradVoNNumWoAveStarRerNumReSt,"”"""*?****注:其中、、分别代表变量在0.05、0.01、o.oor水平上显著。表示变量不显著3.4中可得trSt)表,自变量Sa(店铺星级,其对评论的有用性的影响是不显一著的:,这结果是可解释的评论者发表评论基于商品本身,当商品的质量、外。所W,观等满足消费者的要求时,评论者在发表评论时就会较为真实,TradVo大说明商品满足消费者要求,NumReSt也会很大,但是店铺的星级的评定往往除了TradVo、NumReStW外还包含很多信息,如退货率、好差评率等。基于此,我们就能明白TradVo、NumReSt和StarSt同为店铺属性,前两者在显著性较好的情况tt-而SarS却对预测评论有用性的影响不显著的原因。所W,我们校正后的RRSL模型所使用的子属性不包含StarSt。故我们最终获得的模型如公式3.2。24 第H章在线商品评论有用性预测模型及影响因素研巧**Lo(Helpul)=a+loLenRe+INumLi)+g^fgC)h口巧^h2*N*口tog(^umWo^+P!0NtcmMaWo)+3h8^h**o。舰+*店/g(巧声她公(及。r度e)h+56**P(MveStarRer)h午log^NoReRer)+jPb&**tog^NumUse)+lo(NumCo)+P化口g^bg、。'**Plog('NumFu)h牛i〇br化Wo)+口Skt\\13*化况/ogam)+f々4(Wh化1(公式3.2)3.3.S基分类模型对比P91参考郝媛媛的研巧,本文使用用于区分评论是否有用的最优阔值为0.5。即5为该评论有用。当预测有用性值大于或等于化,就认,否则为无用63G[rteressr随后,在同样测试数据上,我们使用adienBoostingRgo算法喘RandomForesressr-tRego算法墙行对比实验,在本文中分别称为RRSGB模型和RRS-FR型模。脚一GradientBoostingRegressor算法是种优化的Boosting算法。其思想是在之前搭建的模型损失函数的梯度减少的方向建立新的模型,其中,损失函数是指,损失函数越大,说明模型越不稳定模型的不稳定程度,越容易出错。如果说我,说明我们的模型越来也稳定们的模型能够始终让损失函数减少,模型不断的在ensor一进行改进。知aditBoostingRegres算法是个不断优化的过程,其优点是分类精度较高,可W使用多种方法构建子分类器,同时不用担也过拟合的问题。就是用随机的方式建立一RandomForestRegressor算法顾名思义,个森林,森林里有很多个决策树,且森林里的每棵决策树之间是没有联系的,在得到森林一一棵决策树依次进行判断,当有个新的样本输入时,就让森林里的每之后,看一一一看送样本属于哪类,然后看看这所有的决策树的结果,被分到哪类的选择一。该算法的优点是数据集上性能较好,不会陷入过拟多,就认定该样本为哪类a合,也,同化RndomForestReressr,当面对多个数据集时有较好的抗噪能力go,并且不需要做特征选择,对数据适应能力强算法能够处理很多髙绅度的数据,。既可处理离散数据,也可W处理连续数据,训练速度快,实现简单(recion、eca在对比实验中,本文采用査准率Pis)查全率(Rll)W及两者综合--measure-、-指标(F)来对比RRSL模型HYY模型、RRSGB模型和RRSFR模型预测分类效果。具体见表3.525 合肥工业大学学历硕±研巧生学位论文-3--表.5RRSL、HYY、RRSG和RRSR模型相关指标对比---Tab.3.5ComarisonofRRSLHYYRRSGandRRSRmodelsp,,指标Pec-\risionRecallFmeasure模型-RRSL0.83巧(1)0.7451(1)0.78的(1)模型HYY模型0.抓13(2)0.5842(2)0.6758(2)-GBRRS模型0.7376(3)0.52巧(3)0.6138(3)RRS-FR型0934(4.7276(4)0.5009(4)0.5)模-通过对比,我们可W看出RRSL模型在各项指禄中都是最好的。其Precision-GBS-、、的值为0.8巧7,分别比HYY模型RRS模型和RRFR模型离0.03240.W61-和0,.1061,这说明RRSL模型在其预测为有用的评论中,真实有用的评论比例商-能够为客户提供有用信息更多。在Recall值中,RRSL模型的值为0.7451,比HYY-、--、RRSGB型和RRSFR型商0.模型模模.16090.2194和02442,这说明RRSL模型在面对大量评论数据时,能够有较多的有用评论被预测出来,能更加全面的。在F-measure-提供有用评论值的比较中,RRSL模型的值为0.7869,分别比HYY-、RRS-GB模型和RRS-FR模型高0、模型.11110.1731和(U9%,这说明RRSL。模型在所有对比的模型中,性能最好,预测能为最好基于W上的分析,本文认为选择多元线性回归模型作为预测评论有用性的模型是合适的,有理论依据的。3.4小结本章在W前研究基础上,对影响评论有用性的因素进行了详细的分析,采用多元线性回归方法一,建立了个精度较高的预测评论有用性的模型。该模型能帮助消费者快速识别有用评论,做出正确的购买决策。研巧中证实除评论本身属性对评论有用性预测有影响外,发评者属性化及发表评论所在店铺属性都会对评论有用性产生影响一。这观点丰宮了预测评论有用性的因素。从现实的角度来看,能促进网站设计者对网站体系的合理规划,指导商家搭建良好的店铺氛围,规范评论人的评论行为,帮助消费者良性消费。研究中虽然添加了不少预测因素,但相对于评论及所包含的信息,这坚因素还是比较少的。还有很多自变量可W填充的。同时,本文中的实验数据主要来自于Yelp网的商品数据,并没有区分捜索型产品和体验型产品,区分后对模型的性,能是否有影响,针对在线商品的评论有用性预测模型对于其他领域的产品评论如旅游一致是下、电影等,能否同样适用,影响预测评论有用性的影响因素是否一步需要研巧的重点。26 第四章RRS-L模型的自变量兀余性分析第四章RRS-L模型的自变量冗余性分析本章将在上一章节的预测评论有用性的模型的基础上,重点分析影响巧论有用性的影响因素,关注他们之间的相关性,W期待获得更为简单且高效的模型。首一13,先,本章将对前章节的个影响评论有用性预测的子属性进行相关性的分析属性取样,逐个代入实验,期待获得更加髙效且便利的模型:其次,将获得的改进后模型与经典的二分类算法模型进行对比检验模型的分类性能。4.1引言口碑是消费者与消费者之间自发的就商品、服务^>1及其他商品周边的信息进1一行的非正式的交瓣,W帮助个人进行决策的种途径[65。随着互联网商务的发展,]曰碑不在仅仅局限于线下传统的口碑交流了,在线口碑应运而生,而在线评论就一是在线口巧的种重要形式。大量研巧表明[535466有效的在线评论能够帮助消][[]。巧者消除网上购物的不确定巧,快速做出购买决策基于W上,很多的互联网平台提供了评论的推荐机制,在消费者需要购买的同类,。商品中将评分最高的推介给消费者,W帮助消费者进行购买决策学者们也进行也一些有意义的尝试,包括径向基模型、多元神经网络模型等。本文第三章中综合考虑评论文本属性、评论者属性和店铺属性,在多元线性回归模型基础上建立了-RRSL模型,得到了更好的预测结果。目前,基于多元线性相关性方法建立预测评论有用性模型的研究比较广泛,因为一多元线性回归研巧的是个因变量和多个自变量之间的回归问题,是适合预测评论有用性这类问题的一。多元线性回归模型是在元回归模型基础上优化的,其中-一个自变量和一元线性回巧模型主要研巧的是个因变量之间的关系,其模型主要为:=-a+x+s(公式4y.1)p其中,《和片是回归系数,f是误差项。但在实际的工作中,影响因变量的因素往往不是一一个,可能会有多个,在这种情况下,元线性回归就满足不了研巧。的要求了,在这种情况下,多元线性回归分析技术就被采用来解决这类问题一多元线性回归用来描述个自变量和多个因变量之间的关系。其模型为:.'?'?.==\2%+CC+X+X+JC3+义+£1、2、3n(公式4y,.2)P片■..是误差项。其中风表不的是在同样的,《和片1伊风....片是偏回归系数,£一?其余自变量不变的情况下,X改变个单位时因变量的平均变化量,多元线性回归方法的主要任务是、根据自变量和因变量实际值之间的关系,:127 合肥工业大学学历硕±研巧生学位论文建立多元线性回归方程;2、分析自变量和因变量之间的相关性,自动剔除对因变量影响较小的自变量;3、检验自变量对因变量的综合线性显著性影响;4、给出68各个自变量对因变量的影响力大小[1。因此,在预测评论有用性的问题上,多元线性回归方法能有效的建立预测模型,并且能够筛选出最优的多元线性回归模型。在预测评论有用性的问题上一,结合多元线性回归的任务,在对模型的进步研巧后:1、,发现模型还有如下问题采用的自变量之间相关性较离,没有简化模型,获得最优的多元线性回归模型;2、在模型的结果分析中,发现研究将评论是""或是"无"否有用分为有用用的二分类的问题。而在通常的研巧中,二分类问题通wtiPW常会采用支持向量机(SVM)、决策树C4.5算法(J48)、贝叶斯(Baes)y等经典有效的算法,但在上文的研究中,没有体现出多元线性回归模型是否优^于[^1上算法。4.2研究方法基于上问题-L13个子属性,本节首先将对第H章中所提到的RRS模型中的性取样一进斤线性相关性分析,筛选出线性相关性较高的子属性,再逐,并将属代入,期待获得预测成本更低,自变量更少且性能更化的模型。随后,对比经典的二分类算法验证改进后模型的性能。4.2.1线性相关性考察本文用于检验自变量之间线性相关的方法是考察自变量之间的Pearson相关系ea一数。Prson相关系数是统计学中的种方法,主要是用于获取变量之间的线性关系。其公式如公式4.3所示。化X少,令玄y(公式4.3)2-(2>)其中,r是Pearson相关系数值表示要考察线性相关性的两个变量,代表自变量的数据维度。Pearson0时。相关系数当且仅当考察的两个自变量的标准差都不为,才有效1、2、:两个变量之间是线性关系、3其适用于;两个变量之间总体正态分布;两-个变量是成对的,earson相关系数r的11),且之间相互独立。P取值范围是(,正值表示两变量之间存在正相关关系,而负值则表示两变量么间存在负相关性关系,r值的绝对值大小反应了两个变量之间的线性关系强弱,若值大于等于0.8小于等于1,则认为两变量之间存在极强的线性相关性,若大于等于0.6小于0.8则认为两变量么间有较强的线性相关性.4小.6则,而大于等于0于0认为两变量之间有中等强度的线性相关性,大于等于0.2小于0.4则表明两变量之间的线性相关性较弱,而在0到0.2之间认为两变量之间无相关或极弱相关。28 第四章RRS-L模型的自变量冗余性分析4.2.2选取对比实验在预测评论是否有用的研究中一,大部分的研究都会对评论的有用性预测出"""一个阀值无个值,然后通过实验得到。而这个阔值就成为判别评论有用或"用的分界线。简而言之,就是大部分的研究最终都将预测评论有用的结果定义""""为有用或无用的二分类问题上。在二分类问题的研究中,领域中有W下几种常用的经典二分类算法:支持向量机模型(SVM),朴素贝叶斯(化tiveBayes),C4.5决策树(J48)等方法,本=文将选取这个模型进行实验。之所选择这H个模型作为对比试验,是基于这H个方法的在二分类中的良SUortVectorMach一好性能。支持向量机(郎ine)主要思想是;将向量映射到个更加离维的空间中去一,在这个空间里建立个最大间隔超平面将数据分为两侧。在分开的数据的超平面两边建立有两个互相平行的超平面,分隔超平面使得两个""""性平行平面该方法不但算法简单,而且具有较好的鲁棒性。这种鲁棒主要一、、、体现在;1增删非支持向量样本对模型没有影响2;支持向量样本集具有定的鲁棒性;3、有些成功的应用中,SVM方法对核的选取不敏感。朴素贝叶斯(NativeB巧es),有着坚实的数学基础W及稳定的分类效率。同时,朴素贝叶斯模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简1:、2、单。朴素贝叶斯模型的优点在于算法的逻辑比较简单,易于实现;分类过程中时空的开销小;3、算法稳定,对于不同的数据特点其分类性能差别不大,性能较好。一C4.5决策树算法是机器算法中的种分类决策树算法,主要思想其实就是每次选择一个好的特征W及分裂点作为当前节点的分类条件。是ID3算法的优化算一一法,是对ID3算法的些缺点进行了些改进。首先,选择属性的方法不同。C4.5ID决策树算法采取的是用信息增益率来选择属性,而算法采取的是信息增益,其C4.5决策树算法在对树构造的过程中进行剪枝,但那些挂着几个元素的节点次,.不予考虑,这样会避免了过拟合的情况发生,C45;再有决策树算法可W对非离I,C.日散的数据进行处理,这是D3算法不能的后4;最决策树算法能够对不完整的数据进行处理。同时.5,我们汇总得出C4决策树的优点:产生的分类规则易于理解,准确率较高。4.3实验结果及分析本章中的实验数据采用的是第H章在Yelp上爬取的在线商品评论数据。首先,R胎-L模型中的将对13个自变量进行线性相关性分析,采用的方法是4.2.1节中的Pearson相关系数,获得线性相关性较高的自变量,随后将相关性较高的自变量取样一S-L模,再逐代入多元线性回归模型,实验对比取出变量后的模型和RR29 合肥工业大学学历硕±研巧生学位论文型的分类效果;最后,将获得的最优模型与4.2.2节中的几个经典二分类算法进。行比较,对比模型之间的分类能力4.3.1子属性分析H个主属性,分别为评论文在第H章中,将影响评论有用性预测的因素分为本属性。其中评论文本属性包括评论的长度、评论句子、评论者属性和店铺属性、数目6,评论者属性包括评论者星级评论者发表的、评论单词数目等个子属性评论总数、评论者收到的useful投票、评论者收到的cool投票数、评论者收到的flirmy投票数5个子属性,店铺属性包括店铺近十天订单数目和店铺收到的评论总数2个子属性。RRS-,在W上的,我们获得了L模型并得到13个子属性作为自变量的情况下了良好的预测效果。然而,在多元线性回归方程建立时,若自变量之间有共线性73[]earson。,相关系将会増加参数估计的方差,使得方程不稳定因此下面将采用P4。数考察他们之间的线性相关性,实验部分截图如图.1所示M柿i麻席¥疏?酷祀輛瞄職巧帥網京陳顆i棘强¥婦颈「[「I1||-------0110.02.0.030.0210.910.10.94010挪1有雕值—--.0.0150.10.002巧论的长度0.側10.6080.997099—--.Q.0HQ.Q450.測職巧础目0.11110.8070627---〇崩097..0.106〇.0?2.90.60710990016i目巧接单雕'—'—---010.022Q.Q880.058齡主巧端目.1犯0.990.6270.99一---0.25800150..1Q.013Q.072巧论《布淵..01400160022-------0.0.0邮0.01310.07巧體级.030.10.0巧0106 ̄ ̄-----0058.0.0020.胤1巧0.021〇.^.0.072007i仑者星¥—--0..1010.008Q.0U巧路者職細0.191.0530.備0.胤C腳0-译论者收到地咖投票矿0.如50.0830.1030.0820.0940,10.0090.033-巧论者蝴coo0.2060遞0.1060.0830.0950.1030.0110.016l投票数-7ton池if0.則0.08801320080.1.1030.000,023评卷創..80i到--------0.0250020.Q.0.00.0410.012运铺侧職规..008Q22Q0221.0.0320.1120.011.60.腳.012Q32店铺金十巧单HI000II0I謹2I04图.1自变量么间线性相关性分析部分截图巧.4.1Aartoflinearcorrelationanalysisbetweenvariables‘gp41>1earson相关系数分别为在图.中,可^看出评论的长度和评论句子数目的P10.608,这说明两子属性之间有着较强的线性相关性,而与评论的单词数目、评论earson0.的主干单词数目的P相关系数为.997、099,说明评论的长度分别和评论的单词数目;而评论的句子数、评论的主干单词数目之间存在着极强的线性相关性、评论的主干单词数目的Pearson线性相关系数为0.607、0.627,目和评论的单词数目这说明评论的句子数目分别和评论的单词数目、评论的主干单词数目子属性之间30 第四章RRS-L模型的自变量冗余性分析有着较强的线性相关推;评论的单词数目和评论的主干单词数目的Pearson线性相。关系数为0.99说明评论的单词数目和评论的主干单词数目之间有极强的线性相关性。综合,Pearson线性相关系;^上本文认为这四个子属性之间数都较髙,两两之间的线性相关性较髙。一个模型中在多元线性回归中,若线性相关性较强的子属性存在同,将会造^,方程的不稳定。本文中将基于1上的Pearson成模型参数增加1^线性相关系数的实验结果,对模型进行改进,在保证模型性能的前提下,降低预测成本。4.3.2模型改进在本节中一,将上文中描述的线性相关性较离四个自变量进行逐代入实验,RRS-L模型的影响考察这堅自变量对原,W期待获取改进后模型。基于4一.3.1节的子属性分析们将考虑将W上四个自变量逐,我代入,来检测试验的预测精度是否会有影响。在此,我们使用的数据依然是第H章中所提到的=e-在Ylp上爬取的实验数据,模型使用的多元线性回归模型,和第章中RRSL模型的区别在于将评论的长度、评论句子数目、评论的单词数目和评论的主干单词一-L模型中取出数目四个自变量从RRS,然后逐代入模型中实验。对比的指标是查准率、查全率及两者综合指标,其中,用于预测评论是否有用的闽值依然为0.5,即当评论/的预测有用值大于等于0、日时,则认为该评论为有用评论,若小.5。于0,则反之一-41表.RRSL模型与仅保留个线性相关强变量模型的指标对比b4-Ta.1Comarisonbetweenthedelandhlwithlhihdeflinea.pRRSLmotemodeonyonereeorggcorrel站ionisreservedPrec-measureisionRecallF模型RRS-L〇.83W(3)0.7451(4)0.7869(4)相关变量"中仅保留评论句子0((().83451)0.74325)0.78625"长度自变量"相关变量中仅保留评论句子0().83304)0.7476(10.7880(2)数"目自变量"相关变量中仅保留评论的单0.8329(5)0.7470(3)0.78%(3)"词数目自变里相关变里"中仅保留评论的主0.83巧(2)0.7476(1)0.7884(1)干单词数"目自变量4一.1代入自变量的实验结果在表中,我们可W得到逐,相较第H章获得的31 合肥工业大学学历硕±研究生学位论文一RRS-L模型,预测性能并没有减弱,反而大部分的数值有定的提升。下面我们R-将分别从查准率(Precision)、查全率(ecall)、两者综合指标(Fmeasure)这H个指标的对比中进行分析。查准率表示预测出有用的评论中实际真正有用的评论所占的比例。在查准率""一,评论句子长度,在所有模型中结果最项中仅保留自变量的实验结果是0.8345""-高,其次是仅保留自变量的0,7评论的主干单词数目.8339RRSL模型为0.833,"""排在第H,其余是仅保留评论句子数目自变量的化8330和仅保留评论的单"词数目自变量的0.8329。这说明在减少自变量的同时,实验的精度并没有明显""""的减少,相反,仅保留评论句子长度自变量和仅保留评论的主干单词数目自变量反而增加了。查全率表示所有的有用评论中有多少比例被预测出有用""。在查全率这项指标""""中,仅保留评论的主千单词数目自变量和仅保留评论句子数目自变量的""0.7476实验结果都是,在所有模型中结果最高,其次是仅保留评论的单词数目-自变量,他的查全率是0.7470,L模型为07451,,而RRS.排在第四查全率最小""一自变量,7432,,该模型是第,是仅保留评论句子长度值为0.而在查准率上这说明该模型在检测评论时,检测出有用评论的能力是优秀的,但是在拒绝那些无用评论的能力相对较弱。而整个查全率的实验结果也说明在减少自变量的同时,模型拒绝无用评论的能力没有减少,反而是增加的。F-smeaure是查准率(Precision)和查全率(Recall)的加权调和平均,他综合""了查准率和查全率的结果,数值越高表示实验结果越理想两者综合指标。在""-measure这项中F,仅保留自变量实验结果都是0,评论的主干单词数目.7884""-measure在所有模型中结果最高评论句子数目,,其次是仅保留自变量他的F""-0.7880值为,随后是仅保留评论的单词数目自变量,其Fmeasure值为化7876,""--measure值最小是仅L模型为0,,而RRS.7869排在第四F保留评论句子长度自变量,值为化7862。这个结果说明减少自变量后,对模型的整体性能没有影响,反而提升了预测精度。-基于W上,我们发现RRSL模型虽然兼顾了评论文本属性、评论者属性和店铺属性H个方面,,取得良好的预测效果但并不是最优的多元线性回归模型。其中评论的长度、评论句子数目、评论的单词数目和评论的主干单词数目这四个自一变量具有较强的线性相关性,而且通过实验己经证明完全可W用其中个属性来代替四个属性,也提。简化模型的同时高的预测的精度,为预测在线评论有用性降低了难度。"通过实验中查准率,我们发现仅保留、查全率[^及两者综合指标的对比评"一论的主干单词数目这自变量的效果最好,其查准率、查全率W及两者综合指32 第四章RRS-L模型的自变量兀余性分析、、标分别是0.83390.7476和0.7884,在五组对比模型中分别排在第2第1和第1。""虽然仅保留评论句子长度自变量的模型在査准率的值最髙,但是其在査全率"和两者综合指标上的结果都比较差,所W在本章中,将用仅保留评论的主干单"一自变量代替四个自变量词数目这,再结合第H章中我们剔除的店铺星级所获-得的模型即为最终获得的模型,本文命为RRSLL模型:*L(Hlul^=+loog.efaCNimMaWo^+pg1^**(logCElcpsedDate)^StarR^+]^*(ASrRerl(NoRR+^veta)og^eer)'**log(.NumUse^logCNumCo)+j^**口log職Fu)牛I心TradVo)+ktP巧bU\3*片(M/fi/te没)+喊h14(公式4.4)其中......14,a和知、知片是偏回归系数,s是误差项。各个自变量的含义见表4.2。表4-LL模型中各变量代表符号及含义.2RRSab42-T..ExplanationforvariablesintheRRSLLmodel变量描述Log(.Helpjud评论的有用性值(常用对数表示)ktlogiNumMaWo)]a商品k评论r的主干单词数目(常用对数表示)logCElapsedDate)商品k评论r的发布时间(常用对数表示)〇化rRe)kt商品k评论r的星级'〇veStarRer)kt发表关于商品k巧论r的评论者的平均星级.发表评论r的评论者发表的所有评论数目flogNoReRer)hVf豈^(常用对数表示).发表评论r的评论者收到的所有的usefiil投票数(log、NumUse)kt(常用对数表示).发表评论r的评论者收到的所有的cool投票数f1〇心umCo)kt(常用对数表示)33 合肥工业大学学历硕±研究生学位论文.发表评论r的评论者收到的所有的fiinny投票数(togNumFu)kt(常用对数表示)logiTradVo)k商品k所属商铺的近十天的巧单数目t.商品k所属商铺收到的评论总数(logKNimReSt)ja(常用对数表示)4.3.3二分类模型对比基于W上,我们将支持向量机(SVM),朴素贝叶斯(NativeBayes),C4.5决48RRS-LL策树(J)这三个模型也在模型的实验评论数据上实验,本文将W上HS-SVMRS-NBS-J48个模型分别命名为RR模型、R模型和RR模型。对比的指标是c-m査准率(Preision)、查全率(Recall)和两者综合指标(Feasure)。对比如表4.3所示。表4".3RRSLL模型与经典二分类算法模型的对化TabRRS-.4.3ComparisonbetweentheLLandclassicaltwoclassificationalgorithms指标-PrecisionRecallFmeasure模型RRS-LL模型0.8339(1)0.7476(2)0.7884(1)RRS-SVM模型0)()().7617(40.744530.75303RRS-NB模型0()()().768430.733240.75044RRS-J48模里!0.77巧(2)04()0.7884(.抓111)-在表4.3中LL模型在查准率。巧扣81〇11)、查全率(民6〇311),我们可|^^看出RRS和两者综合指标-mre)二(Feasu这H个指标与经典的分类算法的对比中依然效果很好。—-在查准率(Precision)项中,RRSLL模型的实验结果是0.拟39,在所有模-、--型中结果最高,分别比RRSSVM模型RRSNB模型、RRSJ48模型的査准率高0-.0722、0.0655、0.0581这说明RRSLL模型在预测评论有用性的准确性上是最,窩的,其预测出来有用的评论中实际上真正有用的评论占得比例是最高的,而送一项也是消费者们极其关注的项:推荐给消费者的评论到底有多少是有用的,这些评论中到底有多少能对消费者的购买决策提供有用的信息。在查全率--(Recall)中,RRSLL模型的结果是0.7476,比RRSSVM模型的-NB型的-0.7445和RRS模0.7332分别高了0.0031、0.0144,而RRSJ48模型的结""-,果为0.8014在査全率送项指标中的表示是最好的比RRSLL模型髙了0.05%,34 第四章RRS-L模型的自变量冗余性分析分析其原因是因为在本次实验的数据为离散数据.,适合C45决策树算法的实验原""-理。总体来说在查全率这项指标上,RRSLL模型表现还是较为良好的,这表示在所有的真实有用的评论中有较大比例的有用评论都被预测出来了,这对于检一-LL模型的全面检索能力有着定的说服力验RRS。-measure--在两者的综合指标(F)上.,RRSLL模型的结果是07884,和RRSJ48一-RRSSVM.模型的结果是样的,在所有的模型中是最高的,比模型的07530和-4RRSNB模型的0.750分别商了0.00別、0.0144。作为综合了查准率(Precision)一一eca-m和査全率(Rll)两项的个综合性指标,Feasure成为衡量模型性能的个一重要指标,其数值的高低从定程度上反映了模型的性能。从实验的结果上看,RRS-LL模型的性能表现优秀在对经典的二分类算法的对比中-measure的,其F,值依然是最离的。i-、基于?,LL模型依然兼顾了评论文本属性评论者属性和(^上我们发现RRS店铺属性H个方面,而且在与经典的二分类算法对比中,取得良好的预测效果。--NB模型效果好很多-其明显比RRSSVM模型、RRS,与RRSJ48模型性能相当,--但在预测评论有用性中,我们依然认为RRSLL模型比RRSJ48模型更适合,因为;首先,预测评论有用性的最终目标是提供有用的信息,帮助消费者进行购买,决策,所W推荐给消费者的评论中真实有用的评论的数量越多消费者获益就越(recisioneca。多,所W在査准率P)和查全率(Rll)中,消费者更关注査准率其次,多元线性回归模型能有效剔除对预测评论有用性没有影响的自变量,这是其他二分类算法不具有的S-LL。基于上,本文认为RR模型是适合预测评论有用性的方法。4.4小结王章的基础上RRS-本章在第,对L模型的自变量进行分析,并对模型进行改-LL模型在减型的性能。模型在降低预进。RRS少自变量的数目的同时,提高了模测评论有用性的成本的同时,能够帮助消费者快速识别有用的评论,降低消费者在执行购买决策时的成本。S-L模型的研巧中将第H章的RR13个自变量进行线性相关性分析,将相关性一RS-高的自变量采取逐代入模型,测试其模型性能,通过实验得到RLL模型,一与原RRS-L模型相较,预测成本降低了,性能上有了定的提高。在与经典的二分类算法的对比实验中也证明了-LL模型是适合用于预测评论有用性的。RRS研巧中减少了预测的成本,提高了预测性能,但是可用于考察评论有用性的一自变量还有很多,还有待考察和提取。进步补充用于预测子属性,提髙预测精度是未来的工作重点。35 合肥工业大学学历硕i研究生学位论文第五章总结与展望本文W在线商品评论为研究对象,利用多元线性回归模型研究影响在线商品评论的有用性的因素,并建立了有效的预测模型。本章将对全文进行总结,并对未来的工作进行展望。5.1本文总结在大数据时代的背景下,网络商务的发展给人带来了极大的便利,而在线商品评论的出现也为潜在消费者款得但也由于网络的不确定性,、低成本等特点时而给潜在的消费者的决策增加了成本,因此,如何快速识别有用的评论,帮助消费者降低决策成本,,帮助商家提高产品或服务的质量收到了极大的关注。本文从在线商品评论有用性的研巧背景入手,阐述了预测在线商品评论有用一性所面临的问题,进而引出在此领域些亟需解决的问题W及问题解决后的意义。在线评论经历了由传统线下口碑到在线口碑,再到在线评论的发展历程,其参与度广、可信度高、研究成本低的特点引起了学者们的广泛关注,其传播过程中的四个传播因素一一评论者/转发者、数字媒体、互联网平台、接收者成为研究的重点。文中介绍近年来预测在线评论有用性的主要研巧,包括径向基函数、多元神经网络一-、多元线性回归等,同时也指出这些研究中出现共同问题用于预测评论有用性的因素仅为评论自身的文本属性,进而引出本文的研巧方向,基于评论自身文本属性、评论者属性、店铺属性这三个方面利用多元线性回归算法建立RR--SL预测模型,取得了良好的预测效果L模型进行改进,在。最后,再对RRS减少预测因素,降低预测成本的同时,反而提升预测精度。RRS-L模型的主要思想是通过对预测评论有用性产生影响因素的汇总,结合多元线性回归算法建立的,针对目前领域中用于预测评论有用性的影响因。首先一素主要集中在评论本身这问题上,结合社会学和市场经济学中理论,提出了除,评论者属性和店铺属性也会影响评论的有用性的预测,评论本身外;随后本文汇总了基于评论文本、评论者和店铺呈大主属性的14个子属性,再结合HYY提-供的模型基础,建立了RRSL,通过对Yel,模型;再次p上的爬取的数据进行实验剔除3-L14个子属性中对预测没有影响的属性,形成最终包含了1个子属性的RRS-L模型,,显,;最后在于其他实验模型的对比中示了RRS的预测性能是优秀的能够为潜在消费者提供有用信息帮助其进行决策。RRS-LL模型的主要思想是考察原RRS-L模型中的31个子属性之间的线性相一关性,在不降低模型性能的前提下,通过属性取样、逐代入来简化模型,降低一预测成本。首先,通过实验检验出线性相关性较高的四个子属性,通过取样逐36 第五章总结与展望e-代入模型,在Ylp爬取的数据进行实验,实验的效果显示RRSLL模型的性能不一-仅没有降低,定的提升随后,将RRSLL模型与几种经典的二类分算还有了;法进行对比结果显示RRS-LL模型具有更好的性能。,5.2未来展望RS-L-LLY模型,在el爬取的评论数据上进巧实验本文提出的R模型和RRSp,取得了较好的预测效果一。但是在模型的建立和改进中,还是有部分问题值得进步的研究和探讨:RRS-LRRS-LL(1)模型和模型是基于分析对评论有用性预测产生影响的子属性而建立的,所W在模型的建立和改进中,模型中涵盏的子属性的质量和数量都对预测的结果产生较大的影响。文中的模型中包含的子属性还是有限的,具体还有哪整因素能够对评论有用性预测产生影响,增加哪些因素能够提高模型的预测性能还有待进一步的研究。--(2)本文中RRSL模型和RRSLL模型面对的评论数据是从Yelp上爬取的,主要是在线商品的评论数据,而在网络商务普遍的现代,在网络中进行交易的不再仅仅局限于商品,还有旅游评论、电影评论等。评论类型不同是否意味着用于一一预测其有用性的子属性也会不RRS-LL样是需要进步探讨的,而模型是否能适应于各类评论类型也是需要研究的。37 参考文献ZhUjF.andZhan,X..TheInfluenceofOnlineConsumer民eviewsontheDemandfor[。gQExerienceGoodswen-p:TheCaseofVideoGamesJ.TtSeventiiConferenceonInformation[]ySystems"CK),Milwaukee,2006:25.一--!闷随也.中国网名6.68化这些数据定要知道EB/OL.2015122htt://news.mdrivers.[][^pycom/1/461/461484.htm.3KatonaG.EMueller.AStudofPurchasinDecisionsinConsumerBehaviorJTheDnamics[]yg[],yofConsumerReaction1955.,4EnelJamesF?民oer0?BlackwellandRobertJ.Keerreis.HowInformationisUsed化Adot[]g,ggp-anInnovation?JJoumalofAdvertisinesearchI96994:38.,,[;]gR()?NessTDa民LE.MarketinModels:BehavioralScienceAlications.JournalofMarketiny,问gpp^]gResearch,1974,11(3).-ansonWA.PrincilesofInternetMarketinM.SouthWesternColleePublishinoman阀Hpg[]ggCpy,1999.7UlrichKillerW.MSchwerdtnerH.CHallsandK.DCard.Transressivetectonismintheeastern[],,pPenokeanorogeny,Canada:ConsequencesforProterozoiccrustalkinematicsandcontinentalfrtt-amenaion巧?PrecambrianResearch1999,931:5170.g^()口碑主一:巧CIC网络口碑硏巧咨询公司?洞察网络题网络口碑在购买决策中扮演的角色?网[?络口碑白皮书系列.[M]2009:511,armonA.AmazonGlitchUnmasksWarOfReviewers?NewYorkTim巧2004.例H…,0—--htt//1周献.《封杀王老吉》成功的网络事件营销[胆B/OL.20081125:nubs.nu.cn/[]][]pj=z/?95.gpBasuroy,S.,Chateijee,S.andRavid,S.A.HowCriticalareCriticalReviews?TheBoxOficeEfftsf--ecoFilmCriticsStaandBudetJlti6703,rPower,[],JournaofMarken,2003:1117.gg,。巧Kiashberg,J.抑dShugaiijS.M.FilmCritics:InfluencersorPredictors?….Journalof-Marketin199761:6878.g,,。3]YangLiu,XiangjiHuang,A^unA打,andXiaohuiYu.ReviewsAreNotEquallyImportant:Predict!凸gtheHelpftilnessofOnli打eReviews[C].EighthBEEEInternationalConfers凸ceonD-ataMining.Pisa:IEEEComputerSociety,2008:443452■巧AmdtJ.Roleofroductlatedconversationsinthe出ffiisio打ofanewroductJ.Journalofpp[]Ma?rketi打esearch.1967491295.g,民口)。-Wes-15tbrookRobertA.Product/consumtionbasedAffectiveResonsesandosturchase[],ppppoce?prs化sJ.JournalofMarketinResearch.1987,248:255270.[]g()6Anderson巨?W.SullivanMarW.Theantecede打tsandconseuencesofcusto班知satisfaction。],yq38 fo?rfirms.MarketinScie打ce.199312:125143.,阴g17TaxS.S.BrownS.W.ChandrashekaranM,CustomerevaluationsofsevicComlit[],,repanexperiences:implicationsfor巧lationshipmarketing[J].JournalofMarketing.1998,624:6(K76.()二一1,朱顺德.十世纪的日碑营销及其在中国的发展潜力机.管理前沿2003[巧黄英,,6?:3336,()—19阀克儒,网络匿名性、企业形象与关系品质对网络口碑影响之研究^>1线上游戏为例.[]1[D],台中巧立中兴大学,2004。20Ge化B.D.SundaramS.Adatinwordofmouse.Bsi.2002454[],pg化阴un的SHorizons:,()2?125.1Christ.iansenTTaxS.S.Measurinwordofmouththestiowhen?.口],g:quensofwhoandC[]--JournalofMarketinommunications.200063:185199.g,C()ellaroeasC.The出ititionofwordofmoth:Promi化hallesfonlinefeedback口句D,gzauandcengohan?mecisms阴.ManagementScie打说.2003,49(10):14071424.--23T-.HenniThuraUK.P.GwirG.WalshD.DGremecii[]gsnne,..kr.Eltroncwordofmouthva-rtconsumeroinionlatformshatmotivate化ilpp;Wsconsumersacuatethemselvesonthe ̄Intemet?[J].JournalofInteractiveMarketing.2004181:3852.,()attaP.R?,ChowdhurD.N.andChakrabortB.氏.Viralmarketin:newformof口勺D^y,y,g--mouT?wordofththroughIntemet[J].heBusinessReview,2005,3口):6975.2一5郭国庆,杨学成,张杨.口碑传播对消费者态度的影响:.管理评论,[]个理论模型阴2007-1932026.,():[26]章晶晶?网络环境下口碑再传播意愿的影响因素研巧网.抗州:浙江大学,2007.27Subraman-iM.R.andB.RalKnowledSharindflin[],jagopaan.geganInuenceOnlineSocialNe^tworksWaWralMarketing.CommunicationsoftheACM.2003,46:300307.[C]。。e-inberB.D.andL.Davis.Exlorin化eWOWinonlinfkl口巧Wg,pgeauctioneedbac…?JournaofBs?uinessResearch.2005,58(11):16091621.29C.Dellarocas,X..Zhang,N.Awad.Exlorinthevalueofonlineroductreviewsin[]Qpgpforecastingsal朗:Thecaseofmotionpictures[J].JournalofInteractiveMarketing.2007,21(4):23^5.30罗时含.口碑沟通对购买决策的影响研巧网.杭州:浙江大学,2007.[]口1Hofinan0■L.,NovakT.RMarketininhenne出acomuter2ine出atedenvironments:]gyppCO打ce?ptualfoundations[J].JournalofMarketing.1996,60:5068.口)32BickartBSchindler民M.Inteetfoumsaitilsoofitio,[],rnrsnfluenaurcesconsumer打forman[J]Journa-lofInteractiveMarketin2001153:3140.g,,()J.JacobD.E.SellerC.K.Bemin.BrandChoiceBehiorasiofformation口引y,p,gavaFunctonInLoad1?:RelicationandExtensioJ.JournalofConsumerResearch.1974扣42.p却],。):39 口叫ParkDH,LeeJ.eWOMoverloadanditsefectonconsumerbehavioralintentiondeendinonpg-consumerinvolvementJ.ElectronicCommerceResearch友Alications200874:386398.[]pp,,()t抑dSoneiderF.ThePscholoofInterersonal艮elaionsM.NewYork:JohnWilPress口引H,ygyp[]巧,1958.6SenSLeraianD化met.Whareoullinhis?Anexaminationintoneativeconsumerreviews口,]yyggWMa-ontheebtn.JoumalofInteractiverketing,2007,214:7694.()37R-A.Bauer.Consumerbehaviorasrisktakin.Dnamicmarketinfor泣chaninworldC.[]gyggg[]Proceed-ingsofthe43rdconferenceoftheAmericanMarketingAssociation.1960:389398.38Joz6eLa-ierre.CustomererceivedvalueinindustrialcontextsJ.JournalofBusiness在[]pp[]虹M-dustrial200012:12214.arketin55g,,()--Mou口別Voy巧P.A.WordofthProcessesWthinaScrvi说sPurchaseDecisionContextm.Jo服巧1of-ServiceResearch200032:166177.,,()[40]J.C.Carr,R.K.Beatson^J?化Cherrie,T.J.Mitchell,W?民.Fright,B.C.McCallum,andT.R.Evans.民说onstructionandrepresentationof3Dobjectswithradialbasisf\inctions[C].虹Proc.'S-IGGRAPH0120016776.,,4aniUXianiHuanAunAnandXiaohuiYu.Modelinandredictinthehelilne巧of[。YgLjg,jg巧gpgpfionlinereviews[C.EihthIEEEInternationalConferenceonDataMinin.Pisa:BEEE]ggComt-uerSociet2008:443452.py,4hasheiM,BriMAnartificialneuralnetwork,d,modelfortimeseriesforecastinJ.[巧K巧a(pq)g!;]Exrt-eSstemsw地AEcatiom,2010,37):479489.pypp"43SanaeLeeJoonYeonCho.PredictinthehelfUlne巧ofonlinereviewsusinmulilaer[]g,tjgpgyee—prcptronneuralnetworks…?ExpertSystemsw脯Applications,2014,41:30413046.巧)""[4WCaoQ,DuanW,GanQ.Exploringdeterminantsofvotingfor化ehelpful打essofonli打eus知-reviews:AtextmininaroachJ.DecisionSuortSstems2011502:511521,g,,pp[]ppy()45Zunianhan,ianWeiandGuoinhe打?E巧imatinOnlineReviewHelfulnesswi化[]qgZgQgqgCgpProbabilisticDistributionandConfidenceC.ProceedinoftheSeventhInternational[]gConference-onIntelligentSystemsandKnowledgeEngineering.2014:411420.4巧SeghouaneAK.NewAICcorrectedvariantsformultivariatelinearreressionmodel[g-化lectionttr?皮EETransacionsonAerosaceandEleco打icSstems2011472:11541165.tnpy,,()47王惠文,孟洁.多元线性回归的预测建模方法m.北京航天航空大学学报,2007,[〕的4-:500504.()48AnindaGhosePanaiotis0?DesininNovelReviewRankinSstemsPredictin[]y,ggggy:gUsefolnessandtapactof民eviews[C]?阶oceedingsof化e山打化internationalconferenceonE2007-lectroniccommerce.NewYork:ACMPress:303310.,李一49郝媛媛叶强.基.管理科学学[],,军于影评数据的在线评论有用牲影响因素研究阴报,2010打-13888.,巧)40 .旅游在线评论有用性影响因素分析.:2011.[5巧郑时[D]哈尔滨哈尔滨工业大学,-.0122:11812化削]王平,代宝消费者在线评论有用性影响因素实证硏究化统计与决策,2,()[52]KatonaG.EMueller.AStudyofPurchasinDecisionConsumerBehavior:TheDnamicsofgyConsumerReaction[M].NewYork:NewYorkUniversityPress,1955.-m曲Jldutlttii化edifuiofatournalof.RoeofrocreaedconversaonsnsonnewoducJ.J口引Appr[]Research74-Marketin1963:291295.g,,()口叫JudithA.Chevalier,DinaMayzlin.Theefectofwordofmou化onsaks:Onlinebookrev-iewsJJournalofMarketinResearchJMR2OO643:345354..,,[;]g()0)atz.LazafePersonalInfluence:ThePartPlaedbPeoleintheFlowofMass口3KE,PaulFrs化yypCommunicationsM.NewYork:FreePress1955.[],-me5Kim姐dJ.Seo,HierformanceFAretrievalusin孤automaticclusterinthodof[巧吐班pQggue-losJ.Informationrocessinandmanaement.2006423:65065Lqryg[]pgg,()口7]乂ZhouandW.B.Crofl:Documentqualitymodelsforwebadhocretrieval[C].InProceedingoftheACMFourteenthConferenceonInformationandKnowledgeManagement2005-:;331332.58SrikumarKrishnamoorth,LinuisticfeaturesforreviewhelfulnessredictionJ.Exert[]ygpp[]pSs-temsithAlications201542l:375137巧ywpp,,()*[59]PaulFelixLazarsfeld,BernardBerelson,HazelGaudetThepeopleschoiceM.NewYork:[]ColumbiaUniversityPress,1968.60H.vanderHeidenT.Verhaen.Understandinonlineurchaseintentions:contributionsfrom[],ggpjtechnoloandtrustersectivesJ.EuroeanJournalofInformationSstems2003gypp[]py,,-12l:4148.()61AnindyaGhose,PanaiotisG.Estimatinthehelfulnessandeconomicimactofroduct[]ggpppreviews:miningtextandreviewercharacteristicsJ.IEEEtransactiononknowledeanddata[]gen巧-ineerin201110:14981512.gg,,()62杨宜平,,,周由胜.两样本均值的假设检验及其R软件实现J.教育教学论坛2013[][]20-:21321.()63FriedJ.H.Greedfunctionaroximation;AGradientboostingmachineJ.AnnalsofStatistics,[]ypp[]20002959-:1181232.,()[64]张华伟,王明文,甘丽新?基于随机森林的文本分类模型研究阴.山东大学学报:理学版,2006413-:59.,()65AndersonEW.Customersatisfactionandwordofmouth[J].JournalofServiceResearch,1998,[]-11:517.()[6刮KatzE,PaulF.Lazarsfe化Personal虹fluence;ThePartPlayedbyPeopleinthe巧owofMassCommunicationsM.NewYork:FreePress,1955.[]67?基于多元线性回归的昆虫图像分割[D.绩州;江西理工大学2014.]王玻],[41 2〇085-6:4647.巧王振氣陈莉紙多元线性回归统计预测模型的应用化理论新探,,()[20042632-426.种张学工.关于统计学习理论与支持向量机化自动化学报,U):[〇DaiWXue0Yanetal.Transferrinnaivebaesclassifiersfortextclassification.,氏,gy!;。17]gQfe-AaaiConrenceonArtificialIntelligence.2015:540545.7TinaR.PatilMrs.S.S.Sherekar,Performanceanalsisofn沾vebaesandJ48classi扫cation[,yUyafdlificationJInternationalJournalOfComuterScienceAndlgorithmoratacass[],p-Alications2013,62256261.pp,():.基于Pearson系数的芯J.计第机时代72王修竹刘自伟齐阳等片数据预处理方法[,[],,,]2006-11:3738,():73窩惠敬.,2000205.处理多元线性回归中自变皇共线性的几种方法阴数量统计与管理,()[]49-5542 攻读硕±学位期间发表的论文1)参加的学术交流与科研项目(1)基于协同训练策略的不完全标记数据流分类问题研巧(编号:6口73292),-国家自然科学基金,20132016。(2)未标记数据流中的迁移学习关键问题研巧(编号:61305063),国家自然科-学基金,20142016。(3)基于特征扩展的Web短(编号:20130111110011)文本数据流分类方法研巧,-教育部博±点博导基金,20142016,2)发表的学术论义(1)胡学钢.J.计,陈方蹇,张玉红在线商品评论有用性因素研巧[]算机应用研究,2016,11(已录用)43 特别声明本学位论文是在我的导师指导下独立完成的。在研究生学习期间,我的导师要求我些决抵制学术不都行为。在此,我郑重声明,本论文无任何学术一不端行为,如果被发现有任何学术不端行为,切责任完全由本人承担。学位论文作者签名:了签字日期;年中月日44

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭