在线商品评论有用性预测及影响因素研究

ID：35053724

大小：5.34 MB

页数：57页

时间：2019-03-17

上传者：U-56225

资源描述：

《在线商品评论有用性预测及影响因素研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

１０３５９ＴＰ１８１单位代码：分类号：－２０巧１１０４８０学号密级；公开冬瓜Ａ令义考ＨｅｆｅｉＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ顧±学位论文Ｍ乂ＳＴＥＲＤＥＧＲＥＥＴＨＥＳＩＳ论文题目：在线商品评论有用性预测及影响因素研究学位炎別：学历硕±学科专业：计算机科学与技术（工巧领域）作者姓名；陈方盡祥帅姓名：胡学钢教授完成时间：２０化年４月 单位代码；些？密级：＾＾２．学号：２０１３１１０４８０分类号：ＴＦＭ８１ＨｅｆｅｉＵｎｉｖｅｒｓｉｔｏｆＴｅｃｈｎｏｌｏｙｇｙ硕±学位论文ＭＡ＾ＳＴＥＲＳＤＩＳＳＥＲＴＡＴＩＯＮ论文题目；在线商品评论有用性预测及影响因素研究：学历硕壬学位类别专业名称；计算机科学与技术；陈方蠢作者姓名导师姓名；胡学钢教授完成时间：２０１６年４月 合赃工业大学学历硕±学位论文在线商品评论有用性预测及影响因素研究作者姓名：陈方蠢指导教师：朗学钢教授学科专业：计算机科学与技术研巧方向：智能计算理论与软件２０１６年４月 ＡＤｉｓｓｅｒｔａｔｉｏｎＳｕｂｍｉｔｔｅｄｆｏｒｔｈｅＤｅｒｅｅｏｆＭａｓｔｅｒｇＲｅｓｅａｒｃｈｏｎＨｅｌｆｕｌｎｅｓｓＰｒｅｄｉｃｔｉｏｎｐａｎｄＩｍａｃｔＦａｃｔｏｒｓｏｆＯｎｌｉｎｅＰｒｏｄｕｃｔＲｅｖｉｅｗｓｐＢｙＣｈｅｎＦａｎｘｉｎｇＨｅｆｅｉＵｎｉｖｅｒｓｉｔｏｆＴｅｃｈｎｏｌｏｙｇｙＨｅｆｅｉ，Ａｎｈｕｉ，ＲＲ．ＣｈｉｎａＡｒｉｌ２０１６ｐ， 合肥工业大学本论文经答辩委员会全体委员审查，确认符合合肥工业大学学历硕±学位论文质量要求。答辩委员会签名、职称、（工作单位姓名）主席：作Ｉ句如义戶换．挺碱委员：令解斗诚米終＿＇、＾＾＞导师：叫刮知学位论文独创性声明本人郑重声明：所呈交的学位论文是本人在导师指导下进行独立研巧工作所取得的成果，。据我所知，除了义中特别加Ｗ标注和致谢的内容外论文中不包含其他人己经发表或撰写过的巧究成果，也不包含为获得合肥工业大学或其，他教育机构的学位或证书而使用过的材料。对本文成果做出贡献的个人和集体，并表示谢意本人己在论文中作了明确的说明。学位论文中表达的观点纯属作者本人观点，与合肥工业大学无关。：日学位论文作者签名：签名日期年＾月Ｐ＼ｆ备学位论文版权使用授权书龙堂化论义作者完全了解合肥工业大学有关保留、使用学位论文的规定，学校有权保存并向国家有关部鬥或化构，即；縣保密期内的涉密学位论文外送交论文的复印件和电子光盘，允许论文被査阅或借阅。本人授权合肥工业大学可Ｗ将本学位论文的全部或部分内容编入有关数据库，允许采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后适用本授权书）学位论文作者签名：指导教师签名：ｖ么年日：年ｆ月签名曰期，ｉ曰签名曰期／／Ｉ户论文作者毕业去向工作单位；－ｍａｉｌ；联系电话：Ｅ政编码：，通讯地址：邮＇１ 致谢白马过隙，时光飞逝，两年半的研巧生时光即将进入倒计时了。入学时的情景还历历在目，而如今却要挥手告别这所装满我青春记忆的学校。回忆这段青春一岁月，感慨万千，对人生下站的期待和对母校留恋不舍的复杂必情充斥着内屯。两年半的时间让我受益匪浅，倍感欣慰之余也庆幸无比，良师益友的教导和陪伴让我一直保持着不断向上的斗志，在此，谨向他们表达我最真诚的谢意。最深的谢意献给我的导师胡学钢教授。早在本科时，胡老师就是我的任课老。师，其在讲台上侃侃而谈，博古通今的风采让我崇拜非凡本科毕业后，当有机。会选择读研的时候，我坚定的选择师从胡老师两年半的时光里，胡老师给我的不仅仅是学术方向的指导，还有生活的关怀和做人的道理。胡老师为我们营造了一，成功时给我们提醒，他的言传身教、片自由韩翔的天空，失败时给我们鼓励严谨求真的治学精神是我一生最大的财富。一感谢张玉红副教授。在两年半时光中直陪伴我们左右，，张老师从论文定题到定稿、，张老师倾注了她全部屯血。她无数次的纠正研究过程中的错误，无数一丝不苟的工作和循循善诱的教导才有我如今的次的提供实验思路。正是张老师研究成果，对此学生谨记也上，无比感激。感谢李培培老师。李老师在学生的研巧过程中给了极大的启发，对数据的梳。理给予很多的建议，而送些都对后期的研巧产生了深远的影响＂＂感谢数据挖掘千人计划团队所有的老师和同学。感谢张晶、吴共庆、李磊、郭丹、谢飞、张启平老师，感谢他们在生活和学习上的关也。感谢同届的杨。超群、陈伟、马利伟同学，感谢他们的陪伴和帮助同时也要感谢实验室的各位师弟、师妹，正是你们共同营造的求真、求实的实验室氛围才能让我安静愉悦的学习。感谢我的父母，妻子和孩子。没有你们的支持和理解就没有我的现在。在我一直支持着我失落的时候，你们，在我成功的时候，你们陪伴我欢笑。我将用我的全部力量去回报你们对我的爱。。，让最后，我要感谢合肥工业大学这所大学让我晩变我成长，承载着我青春岁月的全部欢乐、悲伤、挫折和成功。无论将来我走向哪里，我都将时刻谨记我是一名工大人一，我都将更加从容的也态面对切挑战。作者：陈方蠢２０１６年４月５日Ｉ 摘要随着互联网的快速发展，带动了网络商务的兴起，网络消费已经成为人们社一会生活重要部分。但是由于网络交易中产品不确定性，导致人们越来越迫切需要获得信息来帮助个人进行购买决策、帮助企业进行反馈收集。因此，在线评论受到了越来越多的关注一。然而，大量的在线评论中参杂着些无用甚至恶意的评论，给人们获取有用信息带来了困难，如何在海量巧论中获得真正有用的评论得到了学者们的关注。本文结合领域中的一些成果，针对如何预测在线评论的有用性展开研究，主要工作如下：（１）、在线评论有用性的预测相关综述；首先介绍了本文的研巧背景研究目的及意义等一，随后对目前领域中的些研巧方法进行介绍，并结合这些研巧成果一些问题提出本文的研巧方法和研究中存在的。（２）－Ｌ模型建立ＲＲＳ，并分析影响因素：目前，用于预测评论有用性的影响因素主要集中的评论文本这一单个属性，针对这个问题，本文综合考虑评论文本属性－、评论者属性和店铺属性Ｈ个方面，基于多元线性回归模型建立了ＲＲＳＬ模型。在实际数据集的实验表明，该模型具有良好的分类效果，在能有效过滤无用。评论的同时，也能够剔除对预测无用的自变量－（３ＲＲＳ－）Ｌ模型的自变量冗余性分化为保证模型的稳定，对ＲＲＳＬ模型中一的自变量进行线性分析，将线性相关性强的属性取样，逐代入，通过实验对比－ＬＬ模型－获取性能最好的ＲＲＳ。在与经典二分类模型对比实验中表明，ＲＲＳＬＬ模型在减少用于预测的自变量，降低预测成本的同时，具有更好的分类效果。关键词：在线评论；有用性；影响因素：预测模型ＩＩ ＡＢＳＴＲＡＣＴＷｉｔｈｔｈｅｒａｉｄｄｅｖｅｌｏｍｅ打ｔｏｆｔｈｅＩｎｔｅｒｎｅｔｔｈｅｂｕｓｉｎ巧ｓｏｆｎｅｔｗｏｒｋｈ泣ｓｂｅｅｎｏｕｌａｒｐｐ，ｐｐａｎｄｎｅｔｗｏｒｋｃｏｎｓｕｍｐｔｉｏｎｈａｓｂｅｃｏｍｅｓｉｇｎｉｆｉｃａｎｔｉｎｔｈｅｄａｉｌｙｌｉ氏ｏｆｐｅｏｐｌｅ．Ｈｏｗｅｖｅｒ，ｄｕｅｔｏｔｈｅｉｍｃｅｒｔａｉｎｔｙｏｆｔｈｅｒｏｄｕｃｔｓｉｎｔｈｅｎｅｔｗｏｒｋｔｒａｎｓａｃｔｉｏｎｓ，化ｉｓｕｒｅｎｔｔｏｅｔｐｇｇｉｎｆｏｒｍａｔｉｏｎ化ｈｅｌｐｉｎｄｉｖｉｄｕａｌｓｆｏｒｐｕｒｃｈａｓｅｄｅｃｉｓｉｏｎｓａｎｄｔｏｈｅｌｐｅｎｔｅｒｐｒｉｓｅｓｆｏｒｆｅｅｄｂａｃｋｃｏｌｌｅｃｔｉｏｎ．Ｔｈｅｒｅｆｏｒｅｏｎｌｉｎｅｒｅｖｉｅｗｓｈａｖｅｒｅｃｅｉｖｅｄｍｏｒｅａｎｄｍｏｒｅａｔｅｎｔｉｏｎ．，Ｈｏｗｅｖｅｒｉｔｉｓｄｉｆｉｃｕｌｔ化ｏｂｔａｉｎｕｓｅｆｕｌｉｎｆｏｒｍａｔｉｏｎｆｏｒｕｓｄｕｅ化ａｌａｒｅｎｕｍｂｅｒｏｆ，ｇｉｎｖａｌｉｄａｎｄｅｖｅｎｍａｌｉｃｉｏｕｓｒｅｖｉｅｗｓｔｈｕｓｈｏｗ化ｅｔ巧ａｌｌｕｓｅｆｕｌｒｅｖｉｅｗｓｉｎｔｈｅｈｕｅ，，ｇｙｇｃｏｍｍｅｎｔｓａｔｔｒａｃｔｓｍｏｒｅａｔｔｅｎｔｉｏｎｏｆｒｅｓｅａｒｃｈｅｒｓ．Ｔｈｉｓｄｉｓｓｅｒｔａｔｉｏｎｆｏｃｕｓｅｓｏｎｈｏｗ化ｐｒｅｄｉｃｔｔｈｅｕｓｅｆｕｌｎｅｓｓｏｆｏｎｌｉｎｅｒｅｖｉｅｗｓａｎｄｍａｉｎｃｏｎｔｒｉｂｕｔｉｏｎｓａｒｅａｓｆｏＵｏｗｓ．＾ｗ１Ｗｅｉｖｅａｓｕｒｖｅｏｆｒｅｄｉｃｔｉｖｅｒｅｖｉｅｗｓｕｓｅｆｕｌｎｅｓｓ：Ｍｏｒｅｓｅｃｉｆｉｃａｌｌｅｆｉｒｓｔ（）ｇｙ，ｐｐｙｉｎｔｒｏｄｕｃｅｔｈｅｂａｃｋｇｒｏｕｎｄａｎｄｍｏｔｉｖａｔｉｏｎａｎｄｔｈｅｎｓｕｍｍａｒｉｚｅｓｏｍｅｍｅｔｈｏｄｓｏｆ，，ｐｒｅ出ｃｔｉｖｅｒｅｖｉｅｗｓｕｓｅｆｕｌｎｅｓｓ．Ｆｉｎａｌｌｙ，ｗｅｐｒｅｓｅｎｔｏｕｒａｐｐｒｏａｃｈｉｎｔｈｅａｎａｌｙｓｉｓｏｆｔｈｅｓｅｍｅｔｈｏｄｓ．－ａａｃｎ２ＷｅｂｕｉｌｄａＲＲＳＬｍｏｄｅｌａｎｄｉｖｅ化ｅａｎｌｓｉｓｏｆｉｍｔｆａｃｔｏｒｓ；Ｅｘｉｓｔｉ（）ｇｙｐｇ＾ｅｆｆｏｒｔｓｍａｉｎｌｙｆｏｃｕｓｏｎｔｈｅａｎａｌｙｓｉｓｏｆｒｅｖｉｅｗｓｔｅｘｔｐｒｏｐｅｒｔｙ．Ｍｏｔｉｖａｔｅｄｂｙｔｈｉｓ，ｗｅｐｒｏｐｏｓｅ泣ｍｕｌｔｉｐｌｅｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｍｅｔｈｏｄｔｏｒｅｄｉｃｔｔｈｅｈｅｌｆｏｌｎｅ巧ｐｐ，ｏｆｏｎｌｉｎｅｒｅｖｉｅｗｓ．Ｔｈｅｍｅｔｈｏｄｆｉｒｓｔｃｏｎｓｉｄｅｒｓｔｈｒｅｅｉｍｐ江ｃｔｆａｃｔｏ。ｉｎｃｌｕｄｉｎｇｒｅｖｉｅｗｓ，，ｅｘｒｏｅｎｄ－ｔｔｒｔｉｅｓｒｅｖｉｅｗｅｉｒｓｒｏｅｒｔｉｅｓａｓｔｏｒｅｓｒｏｅｒｔｉｅｓｔｈｅｎ化ｃｒｅａｔｅｓ江ＲＲＳＬｐｐ，ｐｐｐｐ，ｍｏｄｅｒｅｄｉｃｈｅｆｕｌｎｅｓｓｏｎｌｉｎｅｅｖｉｅｗ．Ｅｘｒｉｍｅｎａｌｒｅｓｕｌｃｏｎｄｕｃｅｄｏｎｌ化ｔｔｈｅｌｏｆｒｓｅｔｔｓｔｐｐｐｒｅａｌｄａｔａｓｅｔｓｓｈｏｗｔｈａｔｔｈｅｍｏｄｅｌｈａｓａｏｏｄｃｌａｓｓｉｆｉｃａｔｉｏｎｅｆｆｅｃｔｃａｎｅｆｆｅｃｔｉｖｅｌｙｆｉｌｔｅｒｇ，ｕｓｅｌｅ巧ｒｅｖｉｅｗｓｂｕｔａｋｏｃａｎｅｌｉｍｉｎａｔｅｔｈｅｕｓｅｌｅ化ｉｎｄｅｅｎｄｅｎｔｖａｒｉａｂｌｅｓ．，ｐａｎｃｅｎｄｅｎ－ｅ〇３ＲｅｄｕｎｄａｎａｌｓｉｓｏｆｉｎｄｅｐｔｖａｒｉａｂｌｅｓｉｎＲＲＳＬｍｏｄｌ：Ｉ打ｔｈｅ）ｙｙｎａ－ｔｅａｌｓｉｓｏｆｔｈｅｉｍａｃｔｆａｃｔｏｒｓｗｅｅｔｔｈｅＲＲＳＬＬｍｏｄｅｌ．Ｔｏｅｎｓｕｒｅｔｈｅｓｔａｂｉｌｉｔｏｆｈｙｐ，ｇｙｍｏｄｅ－ｌｗｅａｎａｌｚｅｔｈｅｌｉｎｅａｒｃｏｒｒｅｌａｔｉｏｎｓａｍｏｎｉｎｄｅｅｎｄｅｎｔｖａｒｉａｂｌｅｓｉｎｔｈｅＲＲＳＬ，ｙｇｐｍｏｄｅｌ，ａｎｄｒｅｍｏｖｅｔｈｅｉｎｄｅｐｅｎｄｅｎｔｖａｒｉａｂｌｅｓｗｉｔｈｓｔｒｏｎｇｌｉｎｅａｒｃｏｒｒｅｌａｔｉｏｎｓ．Ｆｉｎａｌｌｙ，ｗｅ－ｂｕｉｌｄｍｏｄｅｌｓａｓｖａｒｉａｂｌｅｓａｒｒｉｖｅｏｎｅｂｙｏｎｅａｎｄｅｔａｎｏｔｉｍａｌｍｏｄｅｌｃａｌｌｅｄＲＲＳＬＬ．ｇｐＥｘｅｒｉｍｅｎｔａ－ｐｌＫｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅＲＲＳＬＬｍｏｄｅｌｃａｎｅｒｆｏｒｍｂｅｔｔｅｒｃｏｍａｒｅｄ化ｔｈｅｐｐｃｌａｓｓｉｃａｌｔｗｏｃｌａｓｓｉｆｉｃａｔｉｏｎｍｏｄｅｌｓ，ｗｈｉｌｅｕｓｉｎｇｆｅｗｅｒｉｎｄｅｐｅｎｄｅｎｔｖａｒｉａｂｌｅｓａｎｄｒｅｄｕｃｉｎｇｔｈｅｃｏ＾．Ｋｅｙｗｏｒｄｓ；ｏｎｌｉｎｅｒｅｖｉｅｗ；ｈｅｌｐｆｕｌｎｅｓｓ；ｉｍｐａｃｔｆａｃｔｏ巧；ｐｒｅｄｉｃｔｉｖｅｍｏｄｅｌＩＩＩ 目录一第章绪论１１．１研巧背景１１．２问题提出２１．３研巧目的及意义３１．４本文主要研巧内容３１．４．１课题来源３１．４．２主要研究内容４４１．５论文架构１５．６小结７第二章在线商品评论相关综述２．１在线评论的基本理论７２丄１在线评论含义７２丄２在线评论的传播过程８２丄３在线评论的传播因素８２丄４在线评论的测量维度９２．２在线评论的相关理论９２．２．１信息过载与决策导向理论９２．２．２归因理论１０２．２．３顾客感知理论１０２．３预测在线评论有用性的相关研巧１１２．３．１径向基函数模型１１２．３．２多层神经网络算法１２２．３．３概率分布和置信度１４２．３．４多元线性回归模型１５２．４小结１６第Ｈ章在线商品评论有用性预测模型及影响因素研巧１７３．１引胃１７３．２研巧方法１９３．２．１属性获取１９３．２．２模型构建２０３３实验结果与分析２１ＩＶ ３．３．１实验数据２１３２１．３．２变量的初步分析３．３．３主属性分析２２３．３．４子属性分析２４３．３．５基分类模型对比２５３．４小结２６－第四章ＲＲＳＬ模型的自变量冗余性分析２７４．１引胃２７４．２研巧方法２８４．２．１线性相关性考察２８４．２．２选取对比实验２９４．３实验结果及分析２９４．３０．３１子属性分析４．３．２模型改进３１４３４．３．３二分类模型对比４．４小结３５第五章总结与展望％５．１本文总结％５．２未来展望３７参考文献３８攻读硕±学位期间发表的论文４３Ｖ 插图清单图１．１全文各章节逻辑关系图５图２．１在线评论的传播过程８图２、２在线评论四个传播因素及其内容９图２．３反向传播神经网络１３图２．４亚马逊网站中巧论有用性投票机制的例子１４图４．１自变量之间线性相关性分析部分截图３０ＶＩ 表格清单３表．１变量解释１９－３表．２ＲＲＳＬ模型变量描述性统计２１３表．３涵盖不同主属性的模型的指标对比２３－表３Ｌ模型各子属性的显著性水平描述２４．４ＲＲＳ－－－３、：表．５ＲＲＳＬＨＹＹ、ＲＲＳＧ和ＲＲＳＲ模型相关指标对比２６一－表４Ｌ模型与仅保留３１．１ＲＲＳ个线性相关强变量模型的指标对比－表４ＬＬ模型中各变量代表符号及含义巧．２ＲＲＳ－表４ＬＬ模型与经典二分类算法模型的对比３４．３ＲＲＳＶＩＩ 第一章绪论第一章绪论在线评论由于其客观性、全面性、匿名性和互动性等特点收到了消费者的高。度关注，与此同时，互联网的快速发展也带动了在线评论的发展如何有效的利用在线评论受到了越来越多的关注。在本章中将主要介绍预测在线商品评论有用性的研巧背景、研巧意义、主要研究内容化及本文的相关组织架构。１．１研究背景随着经济全球化，互，贸易自由化的要求联网己经进入了全新的时代。互联。网Ｗ其非凡的风采给人们的生活带来了巨大的变化在互联网的影响下，人们己Ｗ经进入了数字化时代，能够更加便利的进行信息交流。据相关统计，我国的网民一Ｐ１从２０１１年的４．７２０１５６．６８亿。互亿己经増加到年的，位列世界第联网己经融一入人类生活的每个角落。互联网的高速发展也带动了其他相关产业的兴起，如网络商务。与此同时，由于互联网的裔效互动、个性匿名等特点，让消费者可１＾放也的在朋友圈、空间一及王方平台网站发表就某商品的使用感受或相关意见，即在线评论。由于在线评论的客观、可信、全面，越来越多的潜在消费者在执行购买决策之前都会阅读在线评论来了解即将购买商品或服务的质量。Ｋ一ａｔｏｎａ在１９５５年的项研究中指出大部分的消费者在即将执行购买决策时会Ｗ提前咨询熟人的建议。随后，在１９６９年，Ｅｎｇｅｌ等人通过调研表明，超过６０％Ｗ的人指出他们获得商品信息的最大来源就是评论。而在１９７１年，Ｄ巧等人发现，Ｗ评论能够改善消费者对商品的态度，促使进行购买行为。这些早期的研巧表明评论对于消费者的影响是巨大的。进入２１世纪后，随着互联网的发展，评论传播的一阵地从线下面对面交流衍生到互联网中来，评论的形式也不再是单的语言交流、了，文字图片等也成为展示评论的媒介，而同时，评论的传播速度和范围也出现了成千上万倍的増长，评论在传统传播形式中传给５个人所用的时间，现在在Ｗ互联网上能传播给超过６０００个人。一。目前，在线评论己经成为评论所有形式中最重要的个部分其对消费者Ｗ及企业都具有很强的影响力。（１）在线评论对消费者的影响。在线评论已经成为消费者消费前的重要参。考，对消费者的整个决策过程都有着指导性作用首先，其会影响消费者的购买决策。ＤｏｕｂｌｅｃｌｉｃｋＩｎｃ．在２００５年的针对旅游业、户外运动业一半的消费者在执行网上消费前都会阅、汁算机行业的调研湿示超过一读在线评论类似的调研ＣＩＣ公司在２００９年也做过次，发现超过８０％的消费１ 合肥工业大学学历硕±研究生学位论文Ｗ者都会关注在线评论，哪怕自己没有特定的购买需求。一其次，在线评论会影响消费者的决策过程。消费者在决定消费之前般经历引起需求、确认购买方案、购买后行、知晓品牌、形成初步方案、评估初步方案为六个过程而在线评论的影响会贯穿整个过程，ＣＩＣ公司的调研报告显示有３４．６％的消费者是在通过阅读在线评论后而引起了胸买需求，５６．３％的消费者是通，４１．６％的消费者是通过阅读在线评论形成初步方案过闽读在线评论了解品牌信息，３６．．２％的消费者会阅读在线评论评估初步方案，５８７％的消费者通过综合在线评论确认自己的购买方案，在购买完成后仍然还有４７．５％的消费者会再次查阔在线评论。（２）在线评论对企业的影响。在线评论已经成为推动企业发展，技术革新的重要因素。企业可Ｗ通过汇总在线评论的信息获得顾客对商品真实态度，并根据顾客的反映来进行技术革新、公司定位、改进服务等工作。同时，由于在线评论能够影响消费者的整个决策过程，所Ｗ在线评论也就与企业的盈利情况息息相关，受到企业的商度关注。，越来越多的企业已经认识到在线评论的重要，所方销售网站目前、直营网站都开始为在线评论的展示提供服务和平台。著名的电子商务网站亚马逊就Ｗ十分重视在线评论平台的建设，其累计的上亿条评论是其成功的关键因素。当然，生产企业也十分重视在线评论的宣传，例如２００８年的王老吉在为四川灾区捐赠１ｔＷ么人民币后，紧接着就出现了《封杀王老吉》的帖子。通过地震捐款事件借势，，迅速提升了知名度，短时间获得巨大的利益策划了这样的在线曰碑营销。本文正是在数据化时代中，电子商务日渐普遍，在线评论收到巨大关注的前提下开展研巧的。１．２问题提出在线商品的交易由于商品的不确定性和卖家的不可控性，会导致消费者出现屯、理担忧，害怕付出比线下市场更高的成本。但随着在线评论平台的发展，在线评论己经成为消费者获取商品信息、卖家信用的重要来源消费者可Ｗ通过阅读已经产生消费行为的消费者发表的评论来降低自身的交易成本。但随着在线一评论数据的快速增长，在线评论的研究也出现了些问题。首先，如何识别有用评论；在传统的评论交流环境中，通常采用问卷的方式进行对评论的研巧。随着互联网的发展，在线评论，评论呈现的形式发生了改变的产生给新的研巧方法的产生提供了可能性一，但与此同时，任特定商品的在线一评论数目都是十分庞大的，而消费者的精力是有限的，无法逐阅读评论，通常情况消费者是希望能阅读到有价值的评论去帮助他进行决策。因此，如何识别有价值的评论并呈现给潜在消费者是十分有必要的。其次，影响评论有用性的因素大部分的平台都己提供评论有用性的投票系；２ 第一章绪论ｕｆ。绕，帮助消费者获得有用性较高的评论但是综合Ｌｉｕ等人惭研把发现这样的评价体系会出现Ｗ下几个问题：（１）新发表的评论获得的有用性投票少，无法准确计算新评论的有用性。（２）无法排除人为干扰。企业为了达到盈利目的，会雇佣人员进行口碑操控，将正向的评论呈现给消费者。一基于Ｗ上，研究认为单纯的投票体系是无法决定评论是否有用的，条评论包含了评论自身一、评论者、店铺等很多的信息。Ｗ某个方面去预测评论是否有用都是有失公允的。因此一，本文首先提出套有效预测评论有用的模型。其次，能够分析出影响评论有用性的因素。１．３研究目的及意义在线评论由于具有信息量大、获取方便、传播速度快等特点而受到消费者和一些弊端企业的关注。而恰恰是由于这些特点却带来，例如，兀余信息多。因此，本文就是要帮助消费者在海量的评论数据中获取真正有价值的评论，并获得影响评论有用性的因素。本文研巧具有理论意义和实践意义。理论意义：（１）丰富预测在线评论有用性的方法。（２）分析获知影响评论有用性的因素，探究消费者阅读评论时的也理持征。实践意义：（１）建立预测评论有用性的模型，提高消费者或企业的筛选效率，提髙决策速度。（２）将真正有价值的评论推送给消费者，防止部分商家通过不良手段操控口碑，欺骗消费者。（３）为消费者提供更好服务，督促消费者认真撰写评论，促使电子商务健康发展。１．４本文主要研究内容基于在线评论研究中出现的问题，本文主要研巧面向在线商品，通过提出有。效的预测模型，解决预测在线评论难的问题１．４．１课题来源本文研究内容来自Ｗ下课题：（１）国家自然科学基金项目；基于协同训练策略的不完全标记数据流分类问题研巧（６１２７３２９２）。３ 合肥工业大学学历硕±研巧生学位论文（２）国家自然科学基金项目：未标记数据流中的迁移学习关键问题研巧（６１３０５０６３）〇（３）教育部博±点博导基金：基于特征扩展的Ｗｅｂ短文本数据流分类方法研巧（２０１３０１１１１１００１１）１．４．２主要研巧内容本文ＷＹｅｌｐ网站的在线商品评论数据为研究对象，通过文本分析获取可能影响评论有用性的特征，，，建立有效的预测评论有用性的模型实验分析特征判别对评论有用性预测有显著影响的特征。主要研巧内容如下；（１）针对消费者很难在海量在线评论中快速、准确的发现有助于执行购买行为信息的问题，，本文在文本挖掘技术的前提下结合多元线性回归方法研究可能影响预测评论有用性的因素，并在此基础上利用多元线性回归模型预测在线商品评论的有用性。已有的预测评论有用性的研究主要从分析评论的文本属性入手，一本文在此基础上，进步探究评论者属性和店铺属性对评论有用性的影响，并综一合Ｈ个属性的。１４个的子属性构建个预测在线评论有用性的线性回归模型利用该模型评估Ｗ上子属性的合理性，并对评论进行预测分类。（２）针对上述模型中子属性之间线性相关性较高，容易造成参数估计的方差一增加，逐，方程不稳定等问题。本文将线性相关性较髙的子属性通过属性取样代入模型，通过在在线商品评论数据上的实验，获得性能最优的改进后模型。此模型在减少用于预测的子属性、降低预测评论有用性的成本的同时，提高了模型的性能。１．５论文架构本文共五章，各章主要内容如下：一第章，，绪论。首先介绍在线评论的研究背景并结合背景提出需要解决的。。，问题，Ｗ及这些问题解决带来的意义随后阐述本文的主要研巧内容和方法。最后，介绍本文的结构及章节主要内容第二章，，在线商品评论相关综述。首先就在线商品评论相关理论进行阐述，包括在线评论的发展历程、传播过程、传播因素和测量维度等，随后，介绍了在一线评论有用性预测领域的相关成果，并在这些研究的基础上，结合研究中的些间题引出本文研究方法。第Ｈ章，在线商品评论有用性预测模型及影响因素研究。基于己有研巧，首先分析了可能影响评论有用性的Ｈ个主属性：评论文本属性、评论者属性、店铺１４属性，Ｗ及下属的个子属性，并在其基础上建立预测在线巧论有用性的多元线—ＲＲＳ－Ｌ模型１４性回归模型。随后，评估模型效果，并利用模型对个子属性分４ 第一章绪论。。析，剔除对预测影响不显著的子属性最后，得出研究结论－，在第Ｈ章的研巧基础上第四章，ＲＲＳＬ模型的自变量冗余性分析。首先，ＲＲＳ－Ｌ模型中涉及的性相关性较１３个子属性进行线性相关性分析将；随后，将线一高的子属性从模型中取出，再逐代入，对相同评论数据进行预测，将实验结果进行对比，选取其中性能最好的模型作为改进后预测模型；最后，将改进后的模型与几种经典的二分类算法，如支持向量机、朴素贝叶斯、Ｃ４．５决策树等，进行。对比，通过实验结果分析验证了改进后模型的良好的分类性能。第五章，总结与展望对本文进行全面总结，并指出研究存在的问题和Ｗ后的研究方向。１．１１．本文的各章节的逻辑关系如图所示，其中第王章和第四章着重解决了２节提出的问题。旨在能在海量的评论数据中帮助消费者准确、快速的寻找到能有助于执行购买决策的信息，同时，就具体哪些因素会影响评论的有用性进行研究，旨在揭示评论的哪些内容能影响消费者的购买决策，为消费者及企业提供具有现实意义的帮助。一第章：绪论研巧背景、问题提出第二章：在线商品评论相关综述基础理论及相关研巧Ａ第Ｈ章：在线商品评论有用性预测模型及影响因素研巧ＲＲＳ－Ｌ模型的自变量冗余性分析第四章；建立模型、改进模型，分析影响有用性因素＾第五章：总结与展望总结全文，未来研究方向图１．１全文各章节遽辑关系图Ｆｉ．１．Ｌｏｉｃｒｅｌａｔｉｏｎｓａｍｏｎ化ｅｒｅｓｅａｒｃｈｃｏｎｔｅ打ｔｓｏｆｔｈｉｓａｅｒｇ１ｇ邮ｇｐｐ１．６小结目前，随着网络商务的普及，在线评论的有用性受到了越来越多的关注，其有用性的预测也取得了不错的成果。这些成果真有很好的现实意义，广泛应用于帮助消费者进行决策和企业技术革新等方面。本章首先介绍了在线评论的研巧背５ 合肥工业大学学历硕±研巧生学位论文景，据此提出了亟需解决的问题化及问题解决后能带来的意义，随后根据问题提，最后出了本文主要的解决内容，介绍了本文的主要章节的内容和整体框架。６ 第二章在线商品评论相关综述第二章在线商品评论相关综述本章将围绕着论文研究的理论基础展开，首先介绍在线评论的基本理论，包一括其含义、传播过程、传播因素及测量的维度；随后将简单介绍在线评论的些理论，进而引出预测在线评论的研究现状，结合其内涵引出领域目前存在的问题，进而提出本文的研巧方法。２．１在线评论的基本理论自出现贸易交换Ｗ后，评论就应运而生。最初的形式是线下的口碑交流。而互联网的产生。，网络在线评论进入人们的视线在线评论的传播过程相较传统线下口碑传播具有更多的维度和复杂性，但是却有着更好的可测性，这也是在线评论的传播特点和传播因素所决定的。因此在开始研巧在线评论之前，需要了解在线评论的定义、传播过程、传播因素和测量维度。２．１．１在线评论含义人们在进行贸易之前，总是会和自己的亲朋好友咨询贸易产品的情况，Ｗ帮助自己进行购买决策。随着商业的发展，人们咨询的对象不再仅仅局限于亲人、ｉ４ｉｓｉ６ｉ７］］］［［［【朋友了，开始向权威人±咨询。Ａｍｄｔ、Ｗｅｓｔｂｒｏｏｋ、Ａｎｄｅｒｓｏｎ请Ｔａｘ等人一将人们么间的这种区别于正式向企业问责的，仅关于商品质量或服务感觉的种ｔＷ相互交流定义为口碑，也称线下评论。国内，黄英、阐克儒等人也对线下评＂＂一论的含义进行进步的丰富，将非盈利为目的作为交流评论的前提。随着互联网的发展，口碑的形式和范围都发生了变化，传播的平台延伸到了１（－－ｍｏｕ气近年来网络，称之为在线口碑Ｗｏｒｄｏｆｓｅ），学者们对在线曰碑展开了ｐ’２６ｉ］对在线日碑做出如下定义一：在线口碑其实是口碑的研究，种在线形式。指的是已消费的、潜在的消费者就产品的特性、服务的质量、品牌的价值、企业的一信誉等进行的种在线交流的行为，交流的形式是文字形式，交流的內容可能是正向的，也可能是负向的。口－：ａｉ在线碑有着众多载体，如在线评论、网上论坛、空间、朋友圈、Ｅｍｌ。等，但上载体对消费者的影响作用并不相同其中，在线评论的影响力受到学一者们的致认可，在线评论指：评论者在自愿的前提下，Ｗ非商业为目的，积极主动的在互联网提供的平台中文本一、图片、视频等数字媒体形式发表对某，一Ｐｗｓｉ、。产品或某企业的态度使用感知等，并呈现潜在消费者大量研巧就在线口碑各种形式载体进行对比，得到的结论都指出：在在线口碑传播的所有形式载体中，在线评论是最有优势的，最利于量化分析、最具有影响为的。其优势在于：７ 合肥工业大学学历硕±研巧生学位论文（１）面向人群更加广泛。这样的优势也是由于在线评论所处平台所决定的，其直接存在于消费者直接产生消费的平台，消费者参与程度高。（２）内容更加可信；广泛的参与度意味着在线评论没有针对特定的对象，不会产生领袖意见，众多信息会有多个指向，意见会更能反映消费者本身信息。（３）研究更加便利。在线口碑的形式是文字类型的，是非结构化文本，量化难度大，早期的研究主要集中在调研、问卷的形式，而在线评论除了能够提供非结构化数据外，还能够提供发表时间、评论等级等可量化数据，，极大便利了研究的开展。因此关于在线评论的研巧也越来越多，然而，无论何种在线口碑形式，他们最核也本质都是消费者在自愿的前提下，一一积极的发表就某产品非正式的使用感受。而在线评论只是其中的种形式，但一是却是影响力最大，，研究效果最具有代表性的种形式。随后本文将探讨在线评论的基础理论和相关研究等。２．１．２在线评论的传播过程基于在线评论的概念，可Ｗ将在线评论在传播过程中各个部分分别定为评论者／转发者、数字媒体、互联网平台、接收者这四个传播因素，具体的传播过程见图２．１。一一评论者发者—数字媒体一？互联网平台数字媒体？接收者＾角色转换图２．１在线评论的传播过程Ｆｉｇ．２．１Ｔｈｅｃｏｍｍｕｎｉｃａｔｉｏｎｐｒｏｃｅｄｕｒｅｏｆｏｎｌｉｎｅｒｅｖｉｅｗｓ在上述过程中，由于在线评论的特点是可＾异步，所１＾１评论的发送和接收可一ｗ不受时间、空间的限制，这也就给在线评论的传播提供了循环的可能性。在一次传播的过程中，担任接收者角色的消费者，在下个评论的传播过程中担任的可能就是评论者（转发者）的角色。目前，就在线评论的研巧非常广泛，不同的学者从不同的出发点进行了深入的研巧和探讨，包括二元分析理论、归因理论等等，但都能够在Ｗ上的传播过程中找到相应的根据，研究对象也都不会脱离Ｗ上四个传播因素。２．１．３在线评论的传播因素在上述的传播过程中，评论者／转发者、数宇媒体、互联网平台、接收者这四个传播因素组成在线评论的主要传播过程。其中，评论者／转发者主要用于发表或转发评论；数字媒体是在线评论的表现形式，评论者／转发者将评论Ｗ数字媒体的ｉ形式上传至平台，平台ｌｌｉ同样的数字媒体形式呈现给接收者ｉ互联网平台为在线８ 第二章在线商晶评论相关综述评论展示提供了场所，也为在线评论提供了异步传播、多对多的传播、开放环境、隐秘性等优势；接收者阅读评论并进行信息处理，决定是否采用这条评论、是否将这条评论转发共享。为了量化在线评论，很多学者对Ｗ上的传播因素展开研究，本文在前人研巧基础上．２。，对Ｗ上的传播因素进行更加深入的了解，相关汇总如图２￣￣￣评论者／转发者数字媒体互联网平台接收者？专业性（星级）？长度？平台专业程度？阅读动机？历史记录？句子数（星级）与？专业程度。吟？传播动机？单词数？平台的接收程度？接收态度？评论质量？发布天数（销售量）……．．．．．．？星级？平台收到的评论？有用信息数目图２．２在线评论四个传播因素及其内容Ｆｉｇ．２．２Ｔｈｅｆｏｕｒｆａｃｔｏｒｓａｎｄｔｈｅｉｒｃｏｎｔｅｎｔｓｏｆｏｎｌｉｎｅｒｅｖｉｅｗｓ２．．１４在线评论的测里维度一在线评论较于传统的线下口碑的个重要优势就是其具有良好的可量性。在线评论文本形式展现，结合平台提供的多个测量因子，为接收者来量化评论的质量和有用性提供了极大的便利。在２．１．３节传播因素的分析为研巧提供了量化在线评论的维度。为帮助接收者了解在线评论的有用性，可从评论者／转发者、数字媒体、互联网平台这Ｈ个因。素着手，这样的测量维度为开展预测评论有用性相关研究提供理论基础在线评论的数据形式为其创造了良好的研究优势，大量针对在线评论的研巧一些相关研究受到学者们的关注，下面我们将介绍在线巧论的。２．２在线评论的相关理论在线评论能够为人们提供大量信息Ｗ帮助其进行决策，提髙人们的决策效率。基于此、，学者们针对在线评论进行大量研巧。本节将介绍在线评论影响消费者屯理的相关研究，包括信息过载与决策导向理论、归因理论和顾客感知理论。这些理论指出了研巧在线评论有用性的必要性，同时也为在线评论有用性的预测提供测量维度。２．２．１信息过载与决策导向理论互联网的快速发展带动了网络商务的发展，为人们的生活带来极大的便利，、同时由于网络的隐匿强，受众广成本低等特点，造成大量的评论数据产生，其一竖无用甚至恶意的评论中包含，而人脑处理信息的速度有限，很难在短时间内９ 合祀工业大学学历硕±研巧生学位论文分辨真伪，获取真正有价值的信息。这种情况就是信息过载（ＩｎｆｏｒｍａｔｉｏｎＯｖｅｒｌｏａｄ），其带来的是降低消费者决策效率，延长决策时间。当今快节奏的生活方式要求消费者在短时间内做出决策，而在线评论的非结构化数据形式让人很难短时间里获得真正有价值信息，更不用说在海量在线评论中获取有价值评论了。Ｊａｃｏｂｙ等人在研巧中指出：当消费者面对少量信息时，人们通常能集中精神获取那竖让人印象深刻的信息，但当信息量过大，超过人们承ＰＳｌ。受阔值时，评论的效果就会大大下降，反而拖累决策在这种情况下，信息过载的问题凸显的更加明显。在线评论决定着消费者两个方面的决策；１、是否接收信息，２、是否推荐评Ｐ４１。论从推荐的角度来说，评论的数量的增加意味着涵盖商品信息增加，有助于消费者获得全面的商品信息，然而从接受的角度来看，评论的增多又会增加决策的负担，，阻碍消费者进行购买决策影响评论传播，因此如何解决评论信息过载的影响，快速获得有用的评论将是本文的研巧内容。２．２．２归因理论归因理论由ＲＨｅｉｄｅｒ在１９５８年提出，其主要内容是：人们的行为或态度通常一，、、二是外受到两个方面的影响个是内在因素，包括个人兽好情绪性格等；Ｐ９在因素，包括环境、他人等。这样的理论也被应用在在线评论的研究领域，Ｓｅｎｅｎｎａｎ一和Ｌ指出：归因理论能够解释消费者对评论者发表评论原因的归因，种是一外在的商品或店铺原因，种是评论者自身原因。即人们对评论的感知会受到归因的左右，简而言之就是当消费者觉得评论者发表的评论的归因为外界因素，那么消费者就认为商品或服务确实存在问题，，这种情况下评论的价值就会增加，相反，意，，，若归因为自身因素味着消费者认为评论者自身存在问题那么评论的ｐｑ真实价值就会降低。ＲＨｅｉｄｅｒ还提出了归因偏差的概念，他指出消费者为了帮助自己规避风险，可能会将Ｗ前的归因改变，人们会选择更少风险的方向改变不利自己的归因，这就Ｐｙ。产生了归因偏差即消费者感知到较高的风险的时候，为了达到保护自身利益的目的，而将原来的内在归因改变，向外界因素转变，从而相信评论提供的信息基于Ｗ上可知，消费者判别在线评论，同时受到了归因和自身利益保护的影响，除，这样的理论为本文研巧消费者感知评论有用性提供了理论基础了评论本身因素外，还要考虑评论者的因素。２．２．３顾客感知理论、ｍｏｎｄ屯理学中延伸出的成果ＲａＢａｕｅｒ认为消感知理论是从，ｙ费者的购买行为一Ｐ。其实就是种承担风险的过程，因为其无法预测贿买的结果是好还是坏叫ｔ外，１０ 第二章在线商品评论相关综述感知理论还表明感知风险的能力受到外在情境的影响，比如Ｌａｐｉｅｒｒｅ指出顾客的感知会指导其选择消费店铺进行购买决策，而消费者的感知就包含商品摆放、店铺氛围等外在环境ＰＳ１。感知理论表明感知风险与在线评论存在重要的关系，Ａｒｎｄｔ指出消费者在感知、风险的过程中最主要降低风险的方法就是获取有用的可靠性高的信息，而在线评论恰恰能做到这点。同时，Ｖｏｙｅｒ等人的研巧表明在高风险的情况下，在线评论对决策的影响力越发明显，消费者也越会从在线评论中获取更多、更详细的信Ｐ９１息。综上、理的角度揭示消费者如何利用在线评论来规，顾客感知理论从消费者屯避决策过程中的风险。该理论为本文探讨在线评论有用性提供理论支撑，同时也为测量在线评论有用性增加店铺这一测量维度。２．３预測在线评论有用性的相关研究在线评论由于其独待的优势得到了大量的关注，针对其开展的研巧也为后续的工作提供了理论基础。在２．２节中，信息的过载指出研巧预测评论有用性是必然的，而归因理论和顾客感知理论又为研究评论有用性提供理论基础。由此可见，预测评论有用性，，为消费者提供有用信息帮助消费者决策是重要的。下面，我一些预测的主要方法展开介绍们就目前领域中。２．３．１径向基函数模型函数逼近能够有效解决预测定义在连续和离散空间的问题一。个强大的函数一一逼近不仅能准确地用个值代表个所经历的状态，也能大概估计到没有经历过状态的值。最常见类型的逼近器是线性逼近，这类逼近比较简单，计算成本较低，但结果不可靠。如果输入和输出之间的真正的关系是非线性的。这样就不得不依靠非线性逼近，如ＲＢＦ。径向基函数比其他常用画数逼近器的简单得多一。当个函数的局部需要了解和掌握时，径向基函数将会给予极大的便利。例如，当在预测评论有用性的时候，一一我们要掌握评论的专业水平送部分的作用时，般就会采用该方法。径向基函ｔＷ数由于其髙度的灵活性，已被广泛应用于许多领域，包括金融和图像处理等方面。Ｘ、点／式为径向基函数的值取决于输入向量和中屯之间：／，其最基本的形－ＲＢＦ＝－１玄义仍心片））（公式２．１）做／，）ｆ（（其中，／是高斯或其他函数，而２是尺度。表示输入向量Ｘ和中也点／／之间的距离，度量的标尺由Ｓ定义。ＷＵ２００８年，Ｌｉｕ等人基于径向基函数建立了模型。该研究在分析可能影响评论有用性的因素后，将影响评论有用性的因素分为Ｈ个部分，分别是评论者的专１１ 合肥工业大学学历硕±研巧生学位论文业水平、评论的写作风格和评论的时效性。在研究中，／是髙斯函数，距离度量选择为欧氏：，所六因此－从）＝诉維。／沪）（公式２．２）ＣＴ－ｙＴ＾＝＝－－－由于采用的是商斯径向基函数：ｅｘｉ／，ｎ／ｂ，而ｙ（／／）（ｘ／）〇其中）Ｘ、也被称为径向基函数的扩展。直观地说，和中屯点＾距离越远，；，函数值越小＝＇＇＝．义．＾．．当Ｘｙ？＋１１＋２＋扔＋＋克，。同时，多个径向公公２风片时函数出现峰值一基函数可Ｗ联合建立个函数逼近：＝ｘ０乂■＆＇／（．３）ｇ（）乏抑Ｉ／，）公式２在Ｌｉｕ的研巧中，将评论者的专业水平和写作风格作为两个局部因素进行径向基函数建模。而由于用于研究的电影评论的有用性是随着时间的推延为衰减的，所Ｗ针对时效性的建模并不是采用径向基函数的，而是通过公式２．４。＿趴＋ｄ＝ｈｔｅ（公式２．４）｛）最终，Ｌ山等人结合上述Ｈ个方面提出了完整的模型，通过Ｈ个分量的子模型加权得到评论的有用性得分。—－＋ｄＷＷ．．义＝＂＇＊＇＋ｕ＇Ｖ＇＋。ｒｅ（公式２巧，Ｗｙ．Ｓｆ玄抑Ｉ／）９之Ｉ，幻）ｓｅ／／ｌｉ、、ｒ其中，ｐｇ分别是Ｈ个分量的权重。一在Ｌｉｕ的研巧中，通巧实验，将判断个评论是否有用的阀值定位化５，即当通过模型计算后，评论的有用性得分大于０．５，即是有用的评论，反之即为无用。Ｌｉｕ的研究采用较为简单的函数逼近，当然还有采用较为复杂的模型，例如多层感知器神经网络。２．３．２多层神经网络算法在径向基模型中，Ｌｉｕ的研究用了较为少量的预测因素，而在大多数的情况下，用于预测评论有用性的影响因素是较多的。在这种情况下，既能检验影响因素的影响程度，又不需要太多的先验假设的人工神经网络受到了关注。４２１１。与传统的基于模型相比，人工神经网络具有！＾＾下几个优点首先，人工神经网络采用的是数据驱动的自适应方法，很少需要或不需要先验假设；其次，人一种通用的函数逼近器．２．２节中所描述的函数逼近器的工神经网络是，它具有在２优点，同时，其特别适合处理那些具有复杂变量，且变量之间关系复杂的非结构化问题。在２０１４年，ＳａｎｇａｅＬｅｅ和ＪｏｏｎＹｅｏｎＣｈｏｅｈ首次在预测评论有用性的领域引ｊ２１第二章在线商品评论相关综述４３ｔ入人工神经网络，提出ＨＰＮＮ算法ｌＨＰＮＮ算法采用的是反向传播的多层感知器神经网络，在为研巧提供显著的预测能力的同时，也帮助人们识别出对评论有用性预测影响较大的评论属性。在ＳａｎｇａｅＬｅｅ等人的研巧中，他们总ｊ共汇总产品数据、评论者感知属性和评论文本特征Ｈ大属性，这王个属性中又包含包括产品、评论人登记、、评论长度等２０个子属性类型、产品销售排行评论极性。通过如图２－３的神经网络图获得最终的预测结果。Ｏｕｔｐｕｔ的Ｍｈ週…？脚ａｒｌｙｅＶＶＩＶ２Ｖ３Ｖ４Ｖ１９２０图２．３反向传播神经网络Ｆ－ｉｇ２．３ＴｈｅｂａｃｋｒｏａａｔｉｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｐｐｇＨＰＮＮ算法采用反向传播的算法，这种算法简单，性能好，利用迭代梯度法一。来估算权重，并能够估计个多层前馈网络是实际输出和期望输出之间的差别在ＨＰＮＮ算法中，提出了相对强度的概念，如公式２．６。厶式２．６巧ｉ獨距（）。如其中，Ｗｗ表示第Ａ个的隐藏单元和第／个输入单元之间的权重，表示第７个输出单元和第ｉｔ个隐藏单元之间的权重。ｉ？是第／个输入和第／个输出变量之％＿间的相对强度。这个相对强度将会直观的展示输入属性和最终输出结果，即与评论的有用性么间的关联程度。ＨＰＮＮ算法第一次将神经网络引入了在线评论的研巧领就并获得了良好的效果，有效的解决了多个变量其相互关系复杂的问题。１３ 合肥工业大学学历硕±研巧生学位论文２．３．３概率分布和置信度，同随着网络商务的快速发展，消费者们越来越愿意在互联网平台上发表评论时平台的运行商们也观察到这样的现象：平台上提供的评论推荐系统能够有效的［Ｗ，帮助消费者获得信息，从而有助于提高销售额和收入。因此在网络商务的交易平台上提供商品评论的有用性投票机制是各个互联网商务平台普遍的共识，如一一１３６人阅读，其中有１３０人觉图２，亚商品的某评论共有．４所示马逊网站中某得有用。商品巧论１３０／６１３人从为化巧接有巧ｒｔｉＷｒｔｒ．任巧奢单（＾４，２年１０月１曰诗也ｇ巧马巧奋’户｜白。４巧某玄星化二Ｉ）－－ａ巧茫的６品：ＴＨＥＲＭＯＳＢＢ巧是ａ空不巧巧巧ａ巧）化５００ＤＰＬＳＯＯｍＵＳ）？肿，？？行么！若巧妇前阁货？马巧Ｓ？包某玄化釘日．好Ｓ多巧了敗Ｉ面Ｓ比巧但上面全是日文肖香Ａ巧沒則国享綿巧Ｉ巧巧前舍子主賊巧爱哀？，？｜？ｍａｄｅｉｎｉ？ｄｃａ运巧化田巧西巧１巧巧璧巧击，巧乘、哀读了至面的巧子？Ｓ个苦巧诗的乏子度也不巧这ｍａｉａｙｓａ不星ｍａｅｍｈｍ庭巧巧冉函外的月兵巧国整，？，＞Ｉ，？ｆｔ马来西２度巧化中国Ｉ化董？巧夏巧巧去巧票？巧了巧巧巧也巧巧书里面黄巧南宾比巧否巧香末不苗巧；化担巧记义巧系爱ｆ？系巧＿一．＊，．．＾１芭小３９玄玄２８．４度咨过巧天的试两，巧巧巧留巧：巧巧詞比．与巧３＾３９元的子巧头巧子比巧巧巧吝重的巧子０？巧巧子的巧小垣与円￥元的子巧巧子。，，’．’３．Ｓ巧，巧＞９９．６度的巧木巧方６小玄１３０．７度巧巧月辜的巧子至运６０Ｓ运巨８巧的５是．Ｉ．，许□的培计巧卓不会巧不巧巧？？出的靈．巧的的话．竞主ｉ巧巧子的巧巧东區巧出水靈下手至出大＊的水拓＊６３居轻惠的木巧窝吝Ｓ還巧当巧巧吝巧近］？？，出？巧ｉ不肤定巧．６水香島巧致巧Ｓ弓拉呆巧巧圾巧￥吝最运君．舌方旧巧比Ｋ召及？６水□巧ａ巧下苦扫泣巧巧０巧下Ｃ图２．４亚马逊网站中评论有用性投票机制的例子’ｍｅＦｉ２．４ＥｘａｍＡｍｖｉｅｗｈｅｌｆｌｉｌｎｅ巧ｖｏｔｉｎｃｈａｎｉｓｍｇ．ｐｌｅｏｆａｚｏｎｓｒｅｐｇ这样的投票机制直观的将毎条评论收到的有用性投票呈现给潜在的消费者，。帮助他们进行购买决策，因此受到了消费者的喜爱，也受到了学者们的关注Ｗ２０ａｎａｎ该机制展开研巧，研究中指出这样的投票机１４年ＺｕｎｑｉｇＺｈｇ等人就一。，制虽然提供的便利，但是有定的局限性首先送种机制忽略了有用性的分布信息一特。平台中信息量庞大，具有相似特征的有用性分布完全可Ｗ用来提高某一定评论的有用性估计值，这种机制将具有相同有用性投票百分比的评论。其次样对待。这虽然是不合理的，例如有用性投票百分比同为０．９的两条评论Ａ和Ｂ，Ａ评论共有１０个人阅读，其中９个人觉得有用，而Ｂ评论共有１０００个人阅读，。共有９００人觉得有用，明显送两条评论的置信度是完全不同的。此基于Ｗ上，ＺｕｎｑｉａｎｇＺｈａｎ等人结合评论的有用性分布信息提出新的方法ｇ一入了先验分布和后验分布，收到有。假设条评论收到总票数为＂方法中，他们引一，ｙ，那么ｙ对于评论的和＂来说可Ｗ视为个随机用性投票为，有用性程度为Ｐ变量的二项分布；，即为Ｘｎ－ｘ＝－＝ｌｘ〇Ｕ．．．ｎ．（公式２．７），，，／ｘＷｐ）（；）ｐ（的，｜ｐ的后验分布为；当ｎ人中有Ｘ人发现该评论有用，则ｆ的＝（公式２．８）口＇Ｊ。／如础）馬脚命一其中爲佑；是公的先验分布，通常是个公分布。所有评论的有用性分布信息４１第二章在线商品评论相关综述都可通过调整先验分布的参数来覆盖。当有用性分布信息没有时，先验分布通常是化１）的均匀分布或参数为儿。的公分布，其他情况下，公分布的参数（口，幻定义为：－＝－幻＝（）６１．９Ｐ，（巧（公式２）驚＾駕（其中，Ｐ和的是研究评论的有用性投票百分比的样本的均值和采样方差。Ｘ＋Ａ－Ｐ的后验分布Ｗｎｘ＋６的片分布，也就慧说：（内参数／加邮）譜裁（公式２竭基于的后验分布，评论有用性的期望值可表示如下：＝／＞／加伽）批片Ｐ点雜縱邮哉．（公式２．ｗ这样，所有的有用性的分布信息都被考虑了。然而，为了区别有同样有用性。在，投票百分比的两条评论，研巧中引入了置信区间给定显著性水平ａ的情况下一个最小的长度区间［Ｃ：找到，巧，满足ｘｄ＝－ａｆ（ｐｌ２．１２ｉｆｐｌ）ｐ（公式）ｌｘ这样相同的有用性投票百分比的评论也将有不同的置信怪间，区间越宽表示４５ｔ屯、消费者对评论的有用性信越低。ＺｕｎｑｉａｎｇＺｈａｎｇ等人惭算法建立在己有的有用性投票的基础上，合理的利用了有用性的分布信息，也有效的区分了相同有用性投票百分比的评论。２．３．４多元线性回归模型随着网络金融竞争的日益加剧，电子商家的竞争越来越激烈。商家为了提高自己销售倩况，也，増加收入开始关注平台中的评论部分。部分商家为了降低竞争商家的竞争力，而使用不道德手段进行恶意评论，对别的商家有价值的评论进行恶意投票等。这样的情况也给预测评论的有用性带来了新的挑战，如２．３．３节的从有用性投票来入手，去预测评论的有用性显然是不合适的。基于Ｗ上的情况，越来越多的研巧开始综合考虑评论的多个方面，将多维属性作为预测评论有用性的影响因素，Ｗ达到能够防止部分商家或生产企业的恶意评论带来的错误，帮助消费者获得真正有价值的信息。在这种情况下，多元线性回归模型开始越来越多的被使用于预测评论的有用性。一种有效的方法多元线性回归模型是统升分析中，主要用于解决多个因变量ｔＷＷｌ都对自变量产生作用的情况。这个特点也恰恰是预测评论有用性领域中所需要的一，因此，多元线性回归模型成为领域的种主流预测模型。多元线性回归模型的主要形式如公式２．１３所示：１５ 合肥工业大学学历硕±研巧生学位论文＝．．．‘＝：＋．．．＋ｉｉ＋？＋１方＋０２。＋：１￡３．．．Ｘ￡ｉ］２３ｎ（公；．．．．．．．１３）＾ｐ，，式２片风４８在ｔ］２００７年，Ｇｈｏｓｅ采用了多元线牲回归模型进行了实验，将评论的主观性平均槪率（Ａ；ｉＶｏ６Ｗ）、主观性分数的标准偏差（公ｅｖ／Ｗ＞Ｗ）、评论的情感变量ｇ（（ＭＯ公货Ｌ４咒）、评论的阅读成本（獻ａｄ）和评论的发布日期距商品发布日期（货巧姑＞ｏｅ。ｔ）作为预测评论有用性的五个属性随后在２０１０年郝媛媛又在其基４９一ｔｌ础改善了模型，进步丰富了用于预测的属性。在其研巧中，共假设了如评论的长度（獻化／）、正负情感打分（化加巧）、正负情感倾向概率标准差（公ｅｖＡｗ）等１１个子属性作为用于预测的属性。在对子属性的检验中，通过逐步回归法，将并不满足要求的其中５个子属性删除，获得最终真实的模型。利用多元线性回归模型进斤预测的还有很多研究，例如郑时在２０１１年针对旅ｓｗＰ１１ｔ。游评论数据做出的预测，王平等人在２０１２年在其实证研巧中提出的模型正也恰恰说明了多元线性回归模型在预测评论有用性中的良好性能，本文的第Ｈ章也将在多元线性回归模型的基础上展开研究。２．４小结本章主要为在线评论有用性的研巧提供理论基础。首先介绍了在线评论的基、、本理论，包括其含义传播过程传播因素和测量维度，简要介绍目前在；随后线评论领域的一些主要理论，信息的过载指出预测评论有用性的必要性，而归因理论和感知风险指明预测评论有用性的维度；最后，介绍了目前用于预测评论有一些方法用性的，送些研究方法为本文后面的研巧提供了模型基础和理论支撑。１６ 第Ｈ章在线商品评论有用性预测模型及影响因素研巧第Ｈ章在线商品评论有用性预测模型及影响因素研究网络商务的发展产生了大量的用户在线评论，然而其中存在部分无效，无用一甚至恶意的评论，给消费者的阅读和参考带来定的负面影响，。因此如何识别在线评论的有用性受到越来越多的关注。已有的研巧主要针对评论的文本属性进行分析，取得了较好的预测结果，但实际应用中影响评论有用性的因素较为繁杂。一本章节在评论的数字媒体文本属性基础上，进步研究评论者属性和互联网平台一中店铺属性对评论有用性的影响，并综爸王个方面构建个预测在线评论有用性的线性回归模型。在实际数据集上的实验结果表明了该模型具有较好的预测能力３．１引言近年来，互联网的飞速发展给人们的生活带来了巨大改变，其中网络商务的出现给人们生活带来了极大便利，然而与此同时，网络销售的信用风险和商品不确定性给消费者的购买决策带来很多困扰，，，所Ｗ如何帮助消费者获得有用信息减少决策成本受到了越来越多的关注。随着网络交易平台上大量交易的发生，海量的在线评论信息也随么产生。评论能够为人们提供大量的产品信息和用户体验从而引起研究者的关注。目前，己有大量主题分类、情感分类的工作针对评论数据斤展研巧。ｗｙ一ｓｔ些文献表明评论的有用性会影响潜在顾客的行为倾向，然而网络的低成本，、隐匿性使得人们可Ｗ在网络上畅所欲言这就使得在线评论的数据过于庞一些无效大，并且质量难Ｗ保证，因此就产生了，甚至恶意或误导性的评论，给用户的决策带来了干扰。近年来关于评论有用性的问题研巧受到很多学者的关注。Ｗ胃４５＾４８—Ｗ５６—￡目前己有很多研究做了有意义的尝试。例如，ＺｕｎｑｉａｎｇＺｈａｎｇ等人针对企业官网或Ｈ方网站上提供的评论投票机制展开的研究。该研究针对＂＂网站中把评论有用投票数作为评论有用性值的情况引出研究方法，／评论总投票数用二项分布表示评论获得有用投票的概率，通过对概率的先验分布和后验分布的，，假设获得有用性的期望值，该研究有效的纠正了网站推荐系统的错误同时根据后验分布和给定显著性水平计算置信区间同于区分推荐系统中有用性值一样的，不同评论。但该预测方法依托于网站的推荐系统，不考虑其他因素完全依靠于一企业网站或三方交易网站提供的投票机制，这给预测带来了定的局限性，即当一一条新的评论出现或条评论的投票数为零的时候，该预测方法是无法使用的。当然，大多数的预测模型还是通过分析影响评论有用性的因素，建立模型来一进行预测的。ＹａｎｇＬ山等人引入径向基函数搭建模型就是其中种。径向基函一、种函数逼近器，数作为，其值取决于输入向量与中屯点之间的距离在其研究中１７ 合肥工业大学学历硕±研究生学位论文将影响评论有用性的因素归纳为兰个方面分别是评论者专业水平、写作风格和时效性。ＹａｎｇＬ山等人根据Ｈ个影响因素的不同特性分别建立子模型，针对评论者专业水平、写作风格搭建的是径向基函数，而由于实验商品类型是电影，评论的，故ＹａｎＬ时效性会随着时间逐渐减弱ｇｉｕ等人针对时效性建立的是随时间指数衰一减的指数函数，最终综合Ｈ者获得最终模型。该模型简洁灵活，具有定的分类能力，但模型的缺点是明显的。首先，其考虑的影响因素太少，仅仅Ｓ维。其次，模型中关于时效性的部分由于商品类型是电影而定义为评论的有用性会随时间推移而减弱，这种情况在其他类型商品的评论是不成立的，这意味着模型只能用于预测那些时效性和电影类似的商品的评论有用性；还有就是模型中关注到评论者专业水平也仅仅定义该评论者发表的评论针对什么类型的电影为主。一部分研究方法在之前的研究基础上汇总了较多的影响因素用于预测评论的４３一ｔ３有用性。ＳａｎｇｊｅＬｅｅ等人的多元神经网络预测模型就是其中种。他们的研巧第一一次将人工神经网络引入了预测评论有用性中，丰富了领域的研究方法，具有定的创新性。ＳａｎｇｊｅＬｅｅ等人汇总产品类型、产品价格、销售排名、评论长度等２０个影响因素作为输入层，通过隐藏层的处理，输出评论的有用性值，该模型的优势在于需要假设少一，同时可计算每个输入变量和输出值之间的相对强度来表明输入变量对输出的贡献大小。然而根据在前文的测量维度的分析，在这个方法中模型包含的影响因素虽然多但并不全面，同时并未考察影响因素之间的线性关系的强弱，这２０个影响因素中较多因素是具有极强的线性相关性的，对于模型的稳定存在一定的影响。一目前，ｈｏｓ多元线性回归模型是用于预测评论有用性比较广泛的种方法，Ｇｅ４８５９ｓ［］［＾］ｉ等人很早就开始这方面的研巧，。在国内郝媛媛、郑时等人在Ｇｈｏｓｅ的研Ｐ９ＵＷ巧基础上改善了模型的性能，取得了良好的效果。在郝媛媛的研究中，其基于理论基础就评论正负情感、评论内容平均正向情感倾向、评论内容政府情感混杂度、在线评论标题正负情感、评论发布天数等１１个可能的影响因素提出假设，，剔除了其中６个影响因素通过对ＹａｈｏｏＭｏｖｉｅｓ的评论数据的训练，得到最终模型，实验的结果表明模型有着良好的预测性能。基于郝媛媛等人的研究，可Ｗ得到多元线性回归模型在预测评论有用性方面具有良好的分类能为，而且能够有效一的分析每个自变量对评论有用性值的显著性水平，然而，对之前工作的深入研究后发现郝媛媛等人用于预测评论的有用性的因素全部集中在评论的文本属性，且因素之间相关性较高一，送对于模型的分类性能和稳定性有着定的影响。综合上，用于预测评论有用性的方法不少，且都有着不错的分类性能，但是存在着一个共同的问题就是预测评论有用性的影响因素都集中的评论的文本本身，ａ山Ｆ．Ｌａｚａｒｓｆｅｋ严咕其。然而在实际中，影响评论有用性的因素较为复杂。Ｐ１８ 第Ｈ章在线商品评论有用性预测模型及影响因素研巧关于传播学的研究中指出，绝大部分的人在开始自己的行为之前，都会潜意识的遵从有威望的人的意见。在网络贸易上，这项研究依然适用，那些购物历史较长，有经验的、发表大量评论的人发表的评论往往会有更强的指导性，对消费者具有更强的指引性。因此，我们认为评论者的属性会影响评论的有用性。Ｌａｐｉｅｒｒｅ在其关于市场经济学的研巧中表明顾客的感知价值会指导其选择消费店铺进行购买决策。而店铺整体氛围就是影响顾客感知价值的很重要部分。Ｈ．ｖａｎｄｅｒＨｅｉｊｄｅｎ和Ｔ．Ｖｅｒｈａｇｅｎ指出；网上店铺的良好形象有助于选择店铺进行消费，同时他指出有用性和值得信赖是构成店铺形象的因素。所＾，对于消费者１一来说，个具有很好星级的且近期成交量高的商铺将会受到更多顾客的光顾，相应也就会受到更多的评论数目，也就意味着会获得更多的有用性评论。基于Ｗ上，。本文认为影响评论有用性的因素除了文本属性，还包括评论者属性和店铺属性一因此，本文将结合评论文本属性，进步对评论者属性和店铺属性进行研巧。并一个拟合度更高的预测模型在郝媛媛等人的研究基础上，构建，进而提高预测的效果。３．２研究方法一不同于之前领域中的研巧，本章提出个同时考虑评论文本属性、评论者属性和店铺属性Ｈ方面因素的预测在线评论有用性的多元线性回归模型。首先，本节将对评论数据进斤分析，获得用于预测评论有用性的属性，随后，基于分析得到的属性搭建预测模型。３．２．１属性获取实验数据涵盖３个主属性和１４个子属性。主属性分别是评论文本属性、评论者属性和店铺属性，其中评论文本属性包括６个子属性、评论者属性包括５个子属性、店铺属性包括３个子属性。相关属性及其描述见表３．１。在分析中，我们得出同时涵盖评论文本属性、评论者属性和店铺属性的预测，表现都是最好的模型无论在模型的拟合度上，还是在预测的精度上，这些分析３．３．３结果在节的结果中有所显示，这个结果支持了本文中同时选挥王个主属性作为预测轉征的行为。表３．１变量解释Ｔａｂ．３．１Ｅｘｐｌａｎａｔｉｏｎｆｏｒｖａｒｉａｂｌｅｓ主属性子属性描述ＬｅｎＲｅ评论的Ｋ度评论文本属性（Ｈｅｖｉｅｗ）ＮｕｍＬｉ评论的句子数目１９ 合肥工业大学学历硕±研巧生学位论文ＮｕｍＷｏ评论的单词数目ＮｕｍＭａＷｏ评论主干单词数目ＥｌａｐｓｅｄＤａｔｅ评论的发布天数ＳｔａｒＲｅ评论己款得的星级ＡｖｅＳｔａｒＲｅｒ评论者的平均星级ＮｕｍＲｅＲｅｒ评论者发表评论总数论者属ＮｕｍＵｓｅ评论者收到ｕｓｅｆｔｉｌ投票总数（Ｒｅｖｉｅｗｅｒ）ＮｕｍＣｏ评论者收到ｃｏｏｌ投票总数ＮｉｒａｉＦｕｎ评论者收到ｆｔｍｎｙ投票总数Ｓｔａｒ別店铺星级胃ｆＴｒａｄＶｏ店铺近十天订单数目（Ｓｔｏｒｅ）ＮｕｍＲｅＳｔ店铺收到的评论总数３．么２模型构建多元线性回归模型是统计分析中一种有效的方法主要解决多个自变量对因变量产生影响的相关问题，同时能够检测出自变量对因变量的影响大小，剔一除对因变量没有影响的自变量，最终建立个最优的多元线性回归模型。本章中选择的预测模型是多元线性回归模型。在郝媛媛等人建立的ＨＹＹ预测模型基础上－Ｌ，本章构建了ＲＲＳ模型，该模一一一型不再单单只包含评论文本属性或其他某种单属性，而是种同时涵盖评论文本属性（Ｒｅｖｉｅｗ）、评论者属性（Ｒｅｖｉｅｗｅｒ）和店铺属性（Ｓｔｏｒｅ）的多元线性回。归模型，具体见公式３．１＝＊＋＊ＮＬｏｇＣＨｅｌｐｆｕｌ＾ａ＋ｙｆｌｏｇＣＬｅｎＲｅ＾ｊ＾＾ｌ〇ｇＣｕｍＬ〇ｊ＾＋ｊ２＊＊ｌ（ｍＷｏ＾＋＾ｌｏ（ＮｕｍＭａＷｏｇ＾Ｎｕ／＾〇ｙ＋］＾ｇ４＊ｗ＊片／ｏｇ（風。ｅ孤幻化＋片（及ｗ化）＋／ｂ５６ＡｖｅＳｔａｒＲｅｒ＾ｌｏｇ＾ＮｏＲｅＲｅｒ＾＋＊＊口ｌｏｇ＾ＮｕｍＵｓｅ）＋ｌｏ＾ＮｕｍＣｏ）＋９ｈｇｂ＊（＊ｌｏｕｍＦｕ）＋？ｌｏ（ＴｒａｄＶｏ）＋ｇ．Ｎｊａ／ｇ．ｊ３（公式３１）＊口ｔｏｇ心Ｎ誦ＲｅＳｔ）＋Ｕｋｔ２０ 第Ｈ章在线商品评论有用性预测模型及影响因素研究其中，ａ、Ａ是常系数，对于模型中部分数据波动比较大的自变量，为让数据。相对稳定而通常取对数处理，为误差项３．３实验结果与分析。其次－本节首先介绍实验所用数据，并对数据进行初步分析，对比ＲＲＳＬ模型在不同主属性下的表现情况，随后在训练模型过程中测试子属性的显著性，获得校正的ＲＲＳ－Ｌ模型。最后，我们将对比相同数据下不同基分类器的分类能力。３．义１实验数据实验数据来自美国著名的点评网站Ｙｅｌｐ。Ｙｅｌｐ是目前最大的点评网站，其数量庞大的入驻商家和客户群让其评论信息相较其他网站具有更强的广泛性和针对性。通过解析网页、爬取了自２００５年３月到２０１３年１月在亚利桑那州进行餐饮消费而产生的评论，涵盖在１２７４２个店铺中消费的４３８７３名顾客发表的２２９９０７条一评论。同时，数据也包含了些训练价值不大的数据，例如获得投票数为０或１的评论、有用性投票为０的评论、近期店铺成交量极低的评论数据等，这些数据反映的情况比较极端，得到的结果代表性差，所Ｗ在实验中将这些数据删除。最后，。，得到口９４１条训练数据４６７６条测试数据随后，人工对４６４７条测试数据标注。通过Ａ和Ｂ两名程序员对Ｗ上评论标记＂＂＂＂一有用或无用，再根据ｋａｐｐａ系数计算他们之间的致性。最终获得ｋａｐｐａ系数一致为化７７２０，显示两名程序员标记大体，数据可信。３．３２．变量的初步分析，模型中含有多个变量，可Ｗ认为这坚变量都是连续的本文对所使用数据集一。进行了统计，并根据统计结果对实验的数据进行进步的处理，统计结果见表３．２３－表．２ＲＲＳＬ模型变量描述性统计－Ｔａｂｉｔｔｉｓｔｉｌｉｔｈ．３．２ＤｅｓｃｒｉｐｔｖｅｓａｃｓｏｆｖａｒｉａｂｅｓｎｅＲＲＳＬｍｏｄｅｌ变虽最小值最大值均值标准差Ｈｅｌｐｆｕｌ０．０７１０．６１０．２７ＬｅｎＲｅ２４５０６８１０６５．５８７２４．５８ＮｕｍＬｉ１１３０６．７９５．５４ＮｕｍＷｏ６１１５２２２６．３６１５３．２４ＮｕｍＭａＷｏ６７０３１３３名６９０．６５２１ 合月Ｅ工业大学学历硕：ｔ硏究生学位论文ＥｌａｓｅｄＤａｔｅ１５２８２８８６８．２６５４２．３３ｐＳｔａｒＲｅ１５３．７６１．１３ＡｖｅＳｔａｒＲｅｒ１５３．７５０．４０ＮｕｍＲｅＲｅｒ１２５８７１７５．４０２３７．４３ＮｕｍＵｓｅ１２４２９３６１０．９９１５５２．３６ＮｕｍＣｏ１２２４１０２巧．７８１３２５．３１２４５１９３７７．４２ＮｕｍＦｕｎ１１１２５．０３ＳｔａｒＳｔ２５３．８５０．４５ＴｒａｄＶｏ３２２９７７９％．０３２３７８．８８ＮｕｍＲｅＳｔ３８化２４７．２９１８７．犯由表３．２可见，部分自变量的数据波动比较大，会影响到实验结果的准确性，因此对ＬｅｎＲｅ、ＮｕｍＬｉ、ＮｕｍＷｏ、ＮｕｍＭａＷｏ、ＥｌａｐｓｅｄＤａｔｅ、ＮｕｍＲｅＲｅｒ、ＮｕｉｎＵ化、ＮｕｍＣｏ、ＮｕｍＦｕｎ、ＴｒａｄＶｏ、ＮｕｍＲｅＳｔ这些自变量数据进行取对数处理。３．３．３主属性分析一是属性的分析本节中将从两个方面考察我们的模型，；通过涵盖不同主属性的模型性能分析，获得最优的预测模型，再通过实验剔除不显著的子属性，获得最终校正后ＲＲＳ－Ｌ二是基分Ｓ－Ｌ模型，类模型对比，将最终的ＲＲ模型与其他基分类模型对比，测试其分类效果。本章在评论文本属性的基础上加入了评论者属性和店铺属性，添加的属性对于模型显著性等方面的影响如何还需验证。因此，为研巧不同属性对于模型的影一响，，我们采取控制变量的方法，分别采取随机选取两个主属性随机选取个主一－属性和ＲＲＳＬ模型对比：、，对比的指标包含模型显著性指标Ｆ统计值模型２２—和校正决定系数Ａｄ—拟合度指标决定系数Ｒ．Ｒ＾及数据差异性指标剩余ｊ标准差ＲＳＥ。具体见表３．３。２２ 第王章在线商品评论有用性预测辕型及影响因素研巧表３．３涵盖不同主属性的模型的指标对比Ｔａｂ．３．３Ｃｏｍｐａｒｉｓｏ打ｏｆｍｏｄｅｌｓｗｉ化姐ｆｅｒｅ打ｔｍａｉ打ａｔｔｒｉｂｕｔｅｓ－＇指标２２Ｐ统计值艮Ａｄ．ＲＲＳＥｊ模型ＲＲＳ－Ｌ型模乂０．２５４６０．２巧９０．４１２１评论文本属性４２８．９０．２５３００．２５２４０．４１２５＆评论者属性评论者属性＆６６１０．两个主属性．２４９３０２４８９０．４１３４店铺属性评论文本属性１１４０．０６１４０．０６０９０．４６２３＆店铺属性评论文本属性１３２．６０．０５４００．０５３６０．４６４１一评论者属性９２０单主属性．１０．２４８２０．２４７９０．４Ｕ７店铺難巧３０．００４８０．００４６０．４７６０３－由表．３可见，ＲＲＳＬ的Ｆ统计值是３６５．８，Ｆ检验显著，表明模型线性回归－关系成立。由表３可见，与含有两个主属性的预测模型相比，ＲＲＳＬ模型决定系２２２数Ｒ、校正决定系数Ａｄｊ．Ｒ都是最高的。具体来说Ｒ比含有评论文本属性和评论者属性的模型高化００１６．００巧，比含有评论者属性和店铺属性的模型髙０，比含有２９３２ｄ．Ｒ评论文本属性和店铺属性髙化１，Ａ比含有评论文本属性和评论者属性的模ｊ型高０．００１５，比含有评论者属性和店铺属性的模型化００５０，比含有评论文本属性３０。－和店铺属性高化１９，表明模型的巧合度最好同时在剩余标准差ＲＳＥ上，ＲＲＳＬ也优于含两个主属性的模型，分别比含有评论文本属性和评论者属性的模型、含有评论者属性和店铺属性的模型、含有评论文本属性和店铺属性低化０００４、０．００１３－和０．０５０２Ｌ。，这表明了ＲＲＳ模型预测值误差最小，预测的精度高一－Ｌ模型与单主属性的预测模型的对比中－Ｌ此外，ＲＲＳ，可Ｗ看出ＲＲＳ模型２一民、．００６４和０分别比单含有评论文本属性评论者属性、店铺属性高０．２００６、０．２４９８，２一０００３０００６０Ａｄ．Ｒ分别比单含有评论文本属性、评论者属性、店铺属性商．２、．、ｊ一－、和化２４９３。而在剩余标准差ＲＳＥ上，ＲＲＳＬ模型分别比单含有评论文本属性评论者属性、店铺属性低０．０５２０、化００１６和０．０６３９。综上可Ｗ得出包含Ｈ个主属性－Ｌ（评论文本属性、评论者属性和店铺属性）的ＲＲＳ模型是本文预测评论有用性的最优模型。一主属性的预测模型的对比中在含单，我们可Ｗ看出含有评论者属性的预测２３ 合肥工业大学学历硕±研究生学位论文２２Ｒ．Ｒ０．１９４２和０．１９４３模型的效果最好，其和Ａｄ商于含有评论者文本属性，商于ｊ含店铺属性的模型０．２４３４和０．２４３３。而ＲＳＥ分别低于后两者０．０５０４和０．０６２３。与一个主属性的模型对比中此同时，我们在含有两个主属性和含有，发现是否包含评论者属性对于模型的性能影响很大。在表中，我们可看到含有评论文本属性２２一和评论者属性的民和Ａｄ．民分别是０．２５３０和０．２５２４，比含单评论文本属性的模ｊ型分别商了０．１９９０和０．１９８８。而民犯却比后者低０．０５１６。同时，含有评论者属性２２一和店铺属性的模型的Ｒ和Ａｄ．Ｒ０．２４９３和０．２４８９分别是，比单含店铺属性的模ｊ一型高了０．２４４５和０．２４４３ＲＳＥ比后者低０．０紀６。这含评论文本，而说明，无论单属性还是店铺属性的模型一，当加上评论者这属性，模型性能都得到很大的提高。基于Ｗ上可见一，评论者属性是影响巧论有用性的个主要因素，对于预测评论有用性准确性有着重要影响。３．３．４子属性分析在对ＲＲＳ－Ｌ模型的训练中发现并非本文中所有１４个子属性对于预测评论有用性的影响都是显著的，且不同的子属性在不同的显著性水平上影响也是不同的。ｔ６２＂＂＂＂因此嗦考察各个子属性在．、．、，为了研巧这个问题，本文使用Ｔ检验００５００１＂＂兰个水平上的显著０．００１化结果见表３．４。表３４ＲＲ－．ＳＬ模型各子属性的显著性水平描述ｂ４－Ｔａ．４ＴｈｅｓｉｉｆｉｃａｎｔｌｅｖｅｌｄｅｓｃｒｉｔｉｏｎｏｆｅａｃｈｓｕｂａｔｔｒｉｂｕｔｅｉｎｔｈｅＲＲＳＬｅｌ．ｇｎｐｍｏｄ＊＊＊＊＊＊显著星级？ＬｅｎＲｅ、ＥｌａｐｓｅｄＤａｔｅ、ＮｕｍＬｉ、ＮｕｍＵｓｅ、ＮｕｍＣｏ、ＮｕｍＦｕｎ、ＳｔａｒＲｅ、子属性ＮｕｍＭａＷｏ、ＳｔａｒＳｔＴｒａｄＶｏＮＮｕｍＷｏＡｖｅＳｔａｒＲｅｒＮｕｍＲｅＳｔ，＂”＂＂＂＊？＊＊＊＊注：其中、、分别代表变量在０．０５、０．０１、ｏ．ｏｏｒ水平上显著。表示变量不显著３．４中可得ｔｒＳｔ）表，自变量Ｓａ（店铺星级，其对评论的有用性的影响是不显一著的：，这结果是可解释的评论者发表评论基于商品本身，当商品的质量、外。所Ｗ，观等满足消费者的要求时，评论者在发表评论时就会较为真实，ＴｒａｄＶｏ大说明商品满足消费者要求，ＮｕｍＲｅＳｔ也会很大，但是店铺的星级的评定往往除了ＴｒａｄＶｏ、ＮｕｍＲｅＳｔＷ外还包含很多信息，如退货率、好差评率等。基于此，我们就能明白ＴｒａｄＶｏ、ＮｕｍＲｅＳｔ和ＳｔａｒＳｔ同为店铺属性，前两者在显著性较好的情况ｔｔ－而ＳａｒＳ却对预测评论有用性的影响不显著的原因。所Ｗ，我们校正后的ＲＲＳＬ模型所使用的子属性不包含ＳｔａｒＳｔ。故我们最终获得的模型如公式３．２。２４ 第Ｈ章在线商品评论有用性预测模型及影响因素研巧＊＊Ｌｏ（Ｈｅｌｐｕｌ）＝ａ＋ｌｏＬｅｎＲｅ＋ＩＮｕｍＬｉ）＋ｇ＾ｆｇＣ）ｈ口巧＾ｈ２＊Ｎ＊口ｔｏｇ（＾ｕｍＷｏ＾＋Ｐ！０ＮｔｃｍＭａＷｏ）＋３ｈ８＾ｈ＊＊ｏ。舰＋＊店／ｇ（巧声她公（及。ｒ度ｅ）ｈ＋５６＊＊Ｐ（ＭｖｅＳｔａｒＲｅｒ）ｈ午ｌｏｇ＾ＮｏＲｅＲｅｒ）＋ｊＰｂ＆＊＊ｔｏｇ＾ＮｕｍＵｓｅ）＋ｌｏ（ＮｕｍＣｏ）＋Ｐ化口ｇ＾ｂｇ、。＇＊＊Ｐｌｏｇ（＇ＮｕｍＦｕ）ｈ牛ｉ〇ｂｒ化Ｗｏ）＋口Ｓｋｔ＼＼１３＊化况／ｏｇａｍ）＋ｆ々４（Ｗｈ化１（公式３．２）３．３．Ｓ基分类模型对比Ｐ９１参考郝媛媛的研巧，本文使用用于区分评论是否有用的最优阔值为０．５。即５为该评论有用。当预测有用性值大于或等于化，就认，否则为无用６３Ｇ［ｒｔｅｒｅｓｓｒ随后，在同样测试数据上，我们使用ａｄｉｅｎＢｏｏｓｔｉｎｇＲｇｏ算法喘ＲａｎｄｏｍＦｏｒｅｓｒｅｓｓｒ－ｔＲｅｇｏ算法墙行对比实验，在本文中分别称为ＲＲＳＧＢ模型和ＲＲＳ－ＦＲ型模。脚一ＧｒａｄｉｅｎｔＢｏｏｓｔｉｎｇＲｅｇｒｅｓｓｏｒ算法是种优化的Ｂｏｏｓｔｉｎｇ算法。其思想是在之前搭建的模型损失函数的梯度减少的方向建立新的模型，其中，损失函数是指，损失函数越大，说明模型越不稳定模型的不稳定程度，越容易出错。如果说我，说明我们的模型越来也稳定们的模型能够始终让损失函数减少，模型不断的在ｅｎｓｏｒ一进行改进。知ａｄｉｔＢｏｏｓｔｉｎｇＲｅｇｒｅｓ算法是个不断优化的过程，其优点是分类精度较高，可Ｗ使用多种方法构建子分类器，同时不用担也过拟合的问题。就是用随机的方式建立一ＲａｎｄｏｍＦｏｒｅｓｔＲｅｇｒｅｓｓｏｒ算法顾名思义，个森林，森林里有很多个决策树，且森林里的每棵决策树之间是没有联系的，在得到森林一一棵决策树依次进行判断，当有个新的样本输入时，就让森林里的每之后，看一一一看送样本属于哪类，然后看看这所有的决策树的结果，被分到哪类的选择一。该算法的优点是数据集上性能较好，不会陷入过拟多，就认定该样本为哪类ａ合，也，同化ＲｎｄｏｍＦｏｒｅｓｔＲｅｒｅｓｓｒ，当面对多个数据集时有较好的抗噪能力ｇｏ，并且不需要做特征选择，对数据适应能力强算法能够处理很多髙绅度的数据，。既可处理离散数据，也可Ｗ处理连续数据，训练速度快，实现简单（ｒｅｃｉｏｎ、ｅｃａ在对比实验中，本文采用査准率Ｐｉｓ）查全率（Ｒｌｌ）Ｗ及两者综合－－ｍｅａｓｕｒｅ－、－指标（Ｆ）来对比ＲＲＳＬ模型ＨＹＹ模型、ＲＲＳＧＢ模型和ＲＲＳＦＲ模型预测分类效果。具体见表３．５２５ 合肥工业大学学历硕±研巧生学位论文－３－－表．５ＲＲＳＬ、ＨＹＹ、ＲＲＳＧ和ＲＲＳＲ模型相关指标对比－－－Ｔａｂ．３．５ＣｏｍａｒｉｓｏｎｏｆＲＲＳＬＨＹＹＲＲＳＧａｎｄＲＲＳＲｍｏｄｅｌｓｐ，，指标Ｐｅｃ－＼ｒｉｓｉｏｎＲｅｃａｌｌＦｍｅａｓｕｒｅ模型－ＲＲＳＬ０．８３巧（１）０．７４５１（１）０．７８的（１）模型ＨＹＹ模型０．抓１３（２）０．５８４２（２）０．６７５８（２）－ＧＢＲＲＳ模型０．７３７６（３）０．５２巧（３）０．６１３８（３）ＲＲＳ－ＦＲ型０９３４（４．７２７６（４）０．５００９（４）０．５）模－通过对比，我们可Ｗ看出ＲＲＳＬ模型在各项指禄中都是最好的。其Ｐｒｅｃｉｓｉｏｎ－ＧＢＳ－、、的值为０．８巧７，分别比ＨＹＹ模型ＲＲＳ模型和ＲＲＦＲ模型离０．０３２４０．Ｗ６１－和０，．１０６１，这说明ＲＲＳＬ模型在其预测为有用的评论中，真实有用的评论比例商－能够为客户提供有用信息更多。在Ｒｅｃａｌｌ值中，ＲＲＳＬ模型的值为０．７４５１，比ＨＹＹ－、－－、ＲＲＳＧＢ型和ＲＲＳＦＲ型商０．模型模模．１６０９０．２１９４和０２４４２，这说明ＲＲＳＬ模型在面对大量评论数据时，能够有较多的有用评论被预测出来，能更加全面的。在Ｆ－ｍｅａｓｕｒｅ－提供有用评论值的比较中，ＲＲＳＬ模型的值为０．７８６９，分别比ＨＹＹ－、ＲＲＳ－ＧＢ模型和ＲＲＳ－ＦＲ模型高０、模型．１１１１０．１７３１和（Ｕ９％，这说明ＲＲＳＬ。模型在所有对比的模型中，性能最好，预测能为最好基于Ｗ上的分析，本文认为选择多元线性回归模型作为预测评论有用性的模型是合适的，有理论依据的。３．４小结本章在Ｗ前研究基础上，对影响评论有用性的因素进行了详细的分析，采用多元线性回归方法一，建立了个精度较高的预测评论有用性的模型。该模型能帮助消费者快速识别有用评论，做出正确的购买决策。研巧中证实除评论本身属性对评论有用性预测有影响外，发评者属性化及发表评论所在店铺属性都会对评论有用性产生影响一。这观点丰宮了预测评论有用性的因素。从现实的角度来看，能促进网站设计者对网站体系的合理规划，指导商家搭建良好的店铺氛围，规范评论人的评论行为，帮助消费者良性消费。研究中虽然添加了不少预测因素，但相对于评论及所包含的信息，这坚因素还是比较少的。还有很多自变量可Ｗ填充的。同时，本文中的实验数据主要来自于Ｙｅｌｐ网的商品数据，并没有区分捜索型产品和体验型产品，区分后对模型的性，能是否有影响，针对在线商品的评论有用性预测模型对于其他领域的产品评论如旅游一致是下、电影等，能否同样适用，影响预测评论有用性的影响因素是否一步需要研巧的重点。２６ 第四章ＲＲＳ－Ｌ模型的自变量兀余性分析第四章ＲＲＳ－Ｌ模型的自变量冗余性分析本章将在上一章节的预测评论有用性的模型的基础上，重点分析影响巧论有用性的影响因素，关注他们之间的相关性，Ｗ期待获得更为简单且高效的模型。首一１３，先，本章将对前章节的个影响评论有用性预测的子属性进行相关性的分析属性取样，逐个代入实验，期待获得更加髙效且便利的模型：其次，将获得的改进后模型与经典的二分类算法模型进行对比检验模型的分类性能。４．１引言口碑是消费者与消费者之间自发的就商品、服务＾＞１及其他商品周边的信息进１一行的非正式的交瓣，Ｗ帮助个人进行决策的种途径［６５。随着互联网商务的发展，］曰碑不在仅仅局限于线下传统的口碑交流了，在线口碑应运而生，而在线评论就一是在线口巧的种重要形式。大量研巧表明［５３５４６６有效的在线评论能够帮助消］［［］。巧者消除网上购物的不确定巧，快速做出购买决策基于Ｗ上，很多的互联网平台提供了评论的推荐机制，在消费者需要购买的同类，。商品中将评分最高的推介给消费者，Ｗ帮助消费者进行购买决策学者们也进行也一些有意义的尝试，包括径向基模型、多元神经网络模型等。本文第三章中综合考虑评论文本属性、评论者属性和店铺属性，在多元线性回归模型基础上建立了－ＲＲＳＬ模型，得到了更好的预测结果。目前，基于多元线性相关性方法建立预测评论有用性模型的研究比较广泛，因为一多元线性回归研巧的是个因变量和多个自变量之间的回归问题，是适合预测评论有用性这类问题的一。多元线性回归模型是在元回归模型基础上优化的，其中－一个自变量和一元线性回巧模型主要研巧的是个因变量之间的关系，其模型主要为：＝－ａ＋ｘ＋ｓ（公式４ｙ．１）ｐ其中，《和片是回归系数，ｆ是误差项。但在实际的工作中，影响因变量的因素往往不是一一个，可能会有多个，在这种情况下，元线性回归就满足不了研巧。的要求了，在这种情况下，多元线性回归分析技术就被采用来解决这类问题一多元线性回归用来描述个自变量和多个因变量之间的关系。其模型为：．＇？＇？．＝＝＼２％＋ＣＣ＋Ｘ＋Ｘ＋ＪＣ３＋义＋£１、２、３ｎ（公式４ｙ，．２）Ｐ片■．．是误差项。其中风表不的是在同样的，《和片１伊风．．．．片是偏回归系数，￡一？其余自变量不变的情况下，Ｘ改变个单位时因变量的平均变化量，多元线性回归方法的主要任务是、根据自变量和因变量实际值之间的关系，：１２７ 合肥工业大学学历硕±研巧生学位论文建立多元线性回归方程；２、分析自变量和因变量之间的相关性，自动剔除对因变量影响较小的自变量；３、检验自变量对因变量的综合线性显著性影响；４、给出６８各个自变量对因变量的影响力大小［１。因此，在预测评论有用性的问题上，多元线性回归方法能有效的建立预测模型，并且能够筛选出最优的多元线性回归模型。在预测评论有用性的问题上一，结合多元线性回归的任务，在对模型的进步研巧后：１、，发现模型还有如下问题采用的自变量之间相关性较离，没有简化模型，获得最优的多元线性回归模型；２、在模型的结果分析中，发现研究将评论是＂＂或是＂无＂否有用分为有用用的二分类的问题。而在通常的研巧中，二分类问题通ｗｔｉＰＷ常会采用支持向量机（ＳＶＭ）、决策树Ｃ４．５算法（Ｊ４８）、贝叶斯（Ｂａｅｓ）ｙ等经典有效的算法，但在上文的研究中，没有体现出多元线性回归模型是否优＾于［＾１上算法。４．２研究方法基于上问题－Ｌ１３个子属性，本节首先将对第Ｈ章中所提到的ＲＲＳ模型中的性取样一进斤线性相关性分析，筛选出线性相关性较高的子属性，再逐，并将属代入，期待获得预测成本更低，自变量更少且性能更化的模型。随后，对比经典的二分类算法验证改进后模型的性能。４．２．１线性相关性考察本文用于检验自变量之间线性相关的方法是考察自变量之间的Ｐｅａｒｓｏｎ相关系ｅａ一数。Ｐｒｓｏｎ相关系数是统计学中的种方法，主要是用于获取变量之间的线性关系。其公式如公式４．３所示。化Ｘ少，令玄ｙ（公式４．３）２－（２＞）其中，ｒ是Ｐｅａｒｓｏｎ相关系数值表示要考察线性相关性的两个变量，代表自变量的数据维度。Ｐｅａｒｓｏｎ０时。相关系数当且仅当考察的两个自变量的标准差都不为，才有效１、２、：两个变量之间是线性关系、３其适用于；两个变量之间总体正态分布；两－个变量是成对的，ｅａｒｓｏｎ相关系数ｒ的１１），且之间相互独立。Ｐ取值范围是（，正值表示两变量之间存在正相关关系，而负值则表示两变量么间存在负相关性关系，ｒ值的绝对值大小反应了两个变量之间的线性关系强弱，若值大于等于０．８小于等于１，则认为两变量之间存在极强的线性相关性，若大于等于０．６小于０．８则认为两变量么间有较强的线性相关性．４小．６则，而大于等于０于０认为两变量之间有中等强度的线性相关性，大于等于０．２小于０．４则表明两变量之间的线性相关性较弱，而在０到０．２之间认为两变量之间无相关或极弱相关。２８ 第四章ＲＲＳ－Ｌ模型的自变量冗余性分析４．２．２选取对比实验在预测评论是否有用的研究中一，大部分的研究都会对评论的有用性预测出＂＂＂一个阀值无个值，然后通过实验得到。而这个阔值就成为判别评论有用或＂用的分界线。简而言之，就是大部分的研究最终都将预测评论有用的结果定义＂＂＂＂为有用或无用的二分类问题上。在二分类问题的研究中，领域中有Ｗ下几种常用的经典二分类算法：支持向量机模型（ＳＶＭ），朴素贝叶斯（化ｔｉｖｅＢａｙｅｓ），Ｃ４．５决策树（Ｊ４８）等方法，本＝文将选取这个模型进行实验。之所选择这Ｈ个模型作为对比试验，是基于这Ｈ个方法的在二分类中的良ＳＵｏｒｔＶｅｃｔｏｒＭａｃｈ一好性能。支持向量机（郎ｉｎｅ）主要思想是；将向量映射到个更加离维的空间中去一，在这个空间里建立个最大间隔超平面将数据分为两侧。在分开的数据的超平面两边建立有两个互相平行的超平面，分隔超平面使得两个＂＂＂＂性平行平面该方法不但算法简单，而且具有较好的鲁棒性。这种鲁棒主要一、、、体现在；１增删非支持向量样本对模型没有影响２；支持向量样本集具有定的鲁棒性；３、有些成功的应用中，ＳＶＭ方法对核的选取不敏感。朴素贝叶斯（ＮａｔｉｖｅＢ巧ｅｓ），有着坚实的数学基础Ｗ及稳定的分类效率。同时，朴素贝叶斯模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简１：、２、单。朴素贝叶斯模型的优点在于算法的逻辑比较简单，易于实现；分类过程中时空的开销小；３、算法稳定，对于不同的数据特点其分类性能差别不大，性能较好。一Ｃ４．５决策树算法是机器算法中的种分类决策树算法，主要思想其实就是每次选择一个好的特征Ｗ及分裂点作为当前节点的分类条件。是ＩＤ３算法的优化算一一法，是对ＩＤ３算法的些缺点进行了些改进。首先，选择属性的方法不同。Ｃ４．５ＩＤ决策树算法采取的是用信息增益率来选择属性，而算法采取的是信息增益，其Ｃ４．５决策树算法在对树构造的过程中进行剪枝，但那些挂着几个元素的节点次，．不予考虑，这样会避免了过拟合的情况发生，Ｃ４５；再有决策树算法可Ｗ对非离Ｉ，Ｃ．日散的数据进行处理，这是Ｄ３算法不能的后４；最决策树算法能够对不完整的数据进行处理。同时．５，我们汇总得出Ｃ４决策树的优点：产生的分类规则易于理解，准确率较高。４．３实验结果及分析本章中的实验数据采用的是第Ｈ章在Ｙｅｌｐ上爬取的在线商品评论数据。首先，Ｒ胎－Ｌ模型中的将对１３个自变量进行线性相关性分析，采用的方法是４．２．１节中的Ｐｅａｒｓｏｎ相关系数，获得线性相关性较高的自变量，随后将相关性较高的自变量取样一Ｓ－Ｌ模，再逐代入多元线性回归模型，实验对比取出变量后的模型和ＲＲ２９ 合肥工业大学学历硕±研巧生学位论文型的分类效果；最后，将获得的最优模型与４．２．２节中的几个经典二分类算法进。行比较，对比模型之间的分类能力４．３．１子属性分析Ｈ个主属性，分别为评论文在第Ｈ章中，将影响评论有用性预测的因素分为本属性。其中评论文本属性包括评论的长度、评论句子、评论者属性和店铺属性、数目６，评论者属性包括评论者星级评论者发表的、评论单词数目等个子属性评论总数、评论者收到的ｕｓｅｆｕｌ投票、评论者收到的ｃｏｏｌ投票数、评论者收到的ｆｌｉｒｍｙ投票数５个子属性，店铺属性包括店铺近十天订单数目和店铺收到的评论总数２个子属性。ＲＲＳ－，在Ｗ上的，我们获得了Ｌ模型并得到１３个子属性作为自变量的情况下了良好的预测效果。然而，在多元线性回归方程建立时，若自变量之间有共线性７３［］ｅａｒｓｏｎ。，相关系将会増加参数估计的方差，使得方程不稳定因此下面将采用Ｐ４。数考察他们之间的线性相关性，实验部分截图如图．１所示Ｍ柿ｉ麻席￥疏？酷祀輛瞄職巧帥網京陳顆ｉ棘强￥婦颈「［「Ｉ１｜｜－－－－－－－０１１０．０２．０．０３０．０２１０．９１０．１０．９４０１０挪１有雕值—－－．０．０１５０．１０．００２巧论的长度０．側１０．６０８０．９９７０９９—－－．Ｑ．０ＨＱ．Ｑ４５０．測職巧础目０．１１１１０．８０７０６２７－－－〇崩０９７．．０．１０６〇．０？２．９０．６０７１０９９００１６ｉ目巧接单雕＇—＇—－－－０１０．０２２Ｑ．Ｑ８８０．０５８齡主巧端目．１犯０．９９０．６２７０．９９一－－－０．２５８００１５０．．１Ｑ．０１３Ｑ．０７２巧论《布淵．．０１４００１６００２２－－－－－－－０．０．０邮０．０１３１０．０７巧體级．０３０．１０．０巧０１０６￣￣－－－－－００５８．０．００２０．胤１巧０．０２１〇．＾．０．０７２００７ｉ仑者星￥—－－０．．１０１０．００８Ｑ．０Ｕ巧路者職細０．１９１．０５３０．備０．胤Ｃ腳０－译论者收到地咖投票矿０．如５０．０８３０．１０３０．０８２０．０９４０，１０．００９０．０３３－巧论者蝴ｃｏｏ０．２０６０遞０．１０６０．０８３０．０９５０．１０３０．０１１０．０１６ｌ投票数－７ｔｏｎ池ｉｆ０．則０．０８８０１３２００８０．１．１０３０．０００，０２３评卷創．．８０ｉ到－－－－－－－－０．０２５００２０．Ｑ．０．００．０４１０．０１２运铺侧職规．．００８Ｑ２２Ｑ０２２１．０．０３２０．１１２０．０１１．６０．腳．０１２Ｑ３２店铺金十巧单ＨＩ０００ＩＩ０Ｉ謹２Ｉ０４图．１自变量么间线性相关性分析部分截图巧．４．１Ａａｒｔｏｆｌｉｎｅａｒｃｏｒｒｅｌａｔｉｏｎａｎａｌｙｓｉｓｂｅｔｗｅｅｎｖａｒｉａｂｌｅｓ‘ｇｐ４１＞１ｅａｒｓｏｎ相关系数分别为在图．中，可＾看出评论的长度和评论句子数目的Ｐ１０．６０８，这说明两子属性之间有着较强的线性相关性，而与评论的单词数目、评论ｅａｒｓｏｎ０．的主干单词数目的Ｐ相关系数为．９９７、０９９，说明评论的长度分别和评论的单词数目；而评论的句子数、评论的主干单词数目之间存在着极强的线性相关性、评论的主干单词数目的Ｐｅａｒｓｏｎ线性相关系数为０．６０７、０．６２７，目和评论的单词数目这说明评论的句子数目分别和评论的单词数目、评论的主干单词数目子属性之间３０ 第四章ＲＲＳ－Ｌ模型的自变量冗余性分析有着较强的线性相关推；评论的单词数目和评论的主干单词数目的Ｐｅａｒｓｏｎ线性相。关系数为０．９９说明评论的单词数目和评论的主干单词数目之间有极强的线性相关性。综合，Ｐｅａｒｓｏｎ线性相关系；＾上本文认为这四个子属性之间数都较髙，两两之间的线性相关性较髙。一个模型中在多元线性回归中，若线性相关性较强的子属性存在同，将会造＾，方程的不稳定。本文中将基于１上的Ｐｅａｒｓｏｎ成模型参数增加１＾线性相关系数的实验结果，对模型进行改进，在保证模型性能的前提下，降低预测成本。４．３．２模型改进在本节中一，将上文中描述的线性相关性较离四个自变量进行逐代入实验，ＲＲＳ－Ｌ模型的影响考察这堅自变量对原，Ｗ期待获取改进后模型。基于４一．３．１节的子属性分析们将考虑将Ｗ上四个自变量逐，我代入，来检测试验的预测精度是否会有影响。在此，我们使用的数据依然是第Ｈ章中所提到的＝ｅ－在Ｙｌｐ上爬取的实验数据，模型使用的多元线性回归模型，和第章中ＲＲＳＬ模型的区别在于将评论的长度、评论句子数目、评论的单词数目和评论的主干单词一－Ｌ模型中取出数目四个自变量从ＲＲＳ，然后逐代入模型中实验。对比的指标是查准率、查全率及两者综合指标，其中，用于预测评论是否有用的闽值依然为０．５，即当评论／的预测有用值大于等于０、日时，则认为该评论为有用评论，若小．５。于０，则反之一－４１表．ＲＲＳＬ模型与仅保留个线性相关强变量模型的指标对比ｂ４－Ｔａ．１Ｃｏｍａｒｉｓｏｎｂｅｔｗｅｅｎｔｈｅｄｅｌａｎｄｈｌｗｉｔｈｌｈｉｈｄｅｆｌｉｎｅａ．ｐＲＲＳＬｍｏｔｅｍｏｄｅｏｎｙｏｎｅｒｅｅｏｒｇｇｃｏｒｒｅｌ站ｉｏｎｉｓｒｅｓｅｒｖｅｄＰｒｅｃ－ｍｅａｓｕｒｅｉｓｉｏｎＲｅｃａｌｌＦ模型ＲＲＳ－Ｌ〇．８３Ｗ（３）０．７４５１（４）０．７８６９（４）相关变量＂中仅保留评论句子０（（（）．８３４５１）０．７４３２５）０．７８６２５＂长度自变量＂相关变量中仅保留评论句子０（）．８３３０４）０．７４７６（１０．７８８０（２）数＂目自变量＂相关变量中仅保留评论的单０．８３２９（５）０．７４７０（３）０．７８％（３）＂词数目自变里相关变里＂中仅保留评论的主０．８３巧（２）０．７４７６（１）０．７８８４（１）干单词数＂目自变量４一．１代入自变量的实验结果在表中，我们可Ｗ得到逐，相较第Ｈ章获得的３１ 合肥工业大学学历硕±研究生学位论文一ＲＲＳ－Ｌ模型，预测性能并没有减弱，反而大部分的数值有定的提升。下面我们Ｒ－将分别从查准率（Ｐｒｅｃｉｓｉｏｎ）、查全率（ｅｃａｌｌ）、两者综合指标（Ｆｍｅａｓｕｒｅ）这Ｈ个指标的对比中进行分析。查准率表示预测出有用的评论中实际真正有用的评论所占的比例。在查准率＂＂一，评论句子长度，在所有模型中结果最项中仅保留自变量的实验结果是０．８３４５＂＂－高，其次是仅保留自变量的０，７评论的主干单词数目．８３３９ＲＲＳＬ模型为０．８３３，＂＂＂排在第Ｈ，其余是仅保留评论句子数目自变量的化８３３０和仅保留评论的单＂词数目自变量的０．８３２９。这说明在减少自变量的同时，实验的精度并没有明显＂＂＂＂的减少，相反，仅保留评论句子长度自变量和仅保留评论的主干单词数目自变量反而增加了。查全率表示所有的有用评论中有多少比例被预测出有用＂＂。在查全率这项指标＂＂＂＂中，仅保留评论的主千单词数目自变量和仅保留评论句子数目自变量的＂＂０．７４７６实验结果都是，在所有模型中结果最高，其次是仅保留评论的单词数目－自变量，他的查全率是０．７４７０，Ｌ模型为０７４５１，，而ＲＲＳ．排在第四查全率最小＂＂一自变量，７４３２，，该模型是第，是仅保留评论句子长度值为０．而在查准率上这说明该模型在检测评论时，检测出有用评论的能力是优秀的，但是在拒绝那些无用评论的能力相对较弱。而整个查全率的实验结果也说明在减少自变量的同时，模型拒绝无用评论的能力没有减少，反而是增加的。Ｆ－ｓｍｅａｕｒｅ是查准率（Ｐｒｅｃｉｓｉｏｎ）和查全率（Ｒｅｃａｌｌ）的加权调和平均，他综合＂＂了查准率和查全率的结果，数值越高表示实验结果越理想两者综合指标。在＂＂－ｍｅａｓｕｒｅ这项中Ｆ，仅保留自变量实验结果都是０，评论的主干单词数目．７８８４＂＂－ｍｅａｓｕｒｅ在所有模型中结果最高评论句子数目，，其次是仅保留自变量他的Ｆ＂＂－０．７８８０值为，随后是仅保留评论的单词数目自变量，其Ｆｍｅａｓｕｒｅ值为化７８７６，＂＂－－ｍｅａｓｕｒｅ值最小是仅Ｌ模型为０，，而ＲＲＳ．７８６９排在第四Ｆ保留评论句子长度自变量，值为化７８６２。这个结果说明减少自变量后，对模型的整体性能没有影响，反而提升了预测精度。－基于Ｗ上，我们发现ＲＲＳＬ模型虽然兼顾了评论文本属性、评论者属性和店铺属性Ｈ个方面，，取得良好的预测效果但并不是最优的多元线性回归模型。其中评论的长度、评论句子数目、评论的单词数目和评论的主干单词数目这四个自一变量具有较强的线性相关性，而且通过实验己经证明完全可Ｗ用其中个属性来代替四个属性，也提。简化模型的同时高的预测的精度，为预测在线评论有用性降低了难度。＂通过实验中查准率，我们发现仅保留、查全率［＾及两者综合指标的对比评＂一论的主干单词数目这自变量的效果最好，其查准率、查全率Ｗ及两者综合指３２ 第四章ＲＲＳ－Ｌ模型的自变量兀余性分析、、标分别是０．８３３９０．７４７６和０．７８８４，在五组对比模型中分别排在第２第１和第１。＂＂虽然仅保留评论句子长度自变量的模型在査准率的值最髙，但是其在査全率＂和两者综合指标上的结果都比较差，所Ｗ在本章中，将用仅保留评论的主干单＂一自变量代替四个自变量词数目这，再结合第Ｈ章中我们剔除的店铺星级所获－得的模型即为最终获得的模型，本文命为ＲＲＳＬＬ模型：＊Ｌ（Ｈｌｕｌ＾＝＋ｌｏｏｇ．ｅｆａＣＮｉｍＭａＷｏ＾＋ｐｇ１＾＊＊（ｌｏｇＣＥｌｃｐｓｅｄＤａｔｅ）＾ＳｔａｒＲ＾＋］＾＊（ＡＳｒＲｅｒｌ（ＮｏＲＲ＋＾ｖｅｔａ）ｏｇ＾ｅｅｒ）＇＊＊ｌｏｇ（．ＮｕｍＵｓｅ＾ｌｏｇＣＮｕｍＣｏ）＋ｊ＾＊＊口ｌｏｇ職Ｆｕ）牛Ｉ心ＴｒａｄＶｏ）＋ｋｔＰ巧ｂＵ＼３＊片（Ｍ／ｆｉ／ｔｅ没）＋喊ｈ１４（公式４．４）其中．．．．．．１４，ａ和知、知片是偏回归系数，ｓ是误差项。各个自变量的含义见表４．２。表４－ＬＬ模型中各变量代表符号及含义．２ＲＲＳａｂ４２－Ｔ．．ＥｘｐｌａｎａｔｉｏｎｆｏｒｖａｒｉａｂｌｅｓｉｎｔｈｅＲＲＳＬＬｍｏｄｅｌ变量描述Ｌｏｇ（．Ｈｅｌｐｊｕｄ评论的有用性值（常用对数表示）ｋｔｌｏｇｉＮｕｍＭａＷｏ）］ａ商品ｋ评论ｒ的主干单词数目（常用对数表示）ｌｏｇＣＥｌａｐｓｅｄＤａｔｅ）商品ｋ评论ｒ的发布时间（常用对数表示）〇化ｒＲｅ）ｋｔ商品ｋ评论ｒ的星级＇〇ｖｅＳｔａｒＲｅｒ）ｋｔ发表关于商品ｋ巧论ｒ的评论者的平均星级．发表评论ｒ的评论者发表的所有评论数目ｆｌｏｇＮｏＲｅＲｅｒ）ｈＶｆ豈＾（常用对数表示）．发表评论ｒ的评论者收到的所有的ｕｓｅｆｉｉｌ投票数（ｌｏｇ、ＮｕｍＵｓｅ）ｋｔ（常用对数表示）．发表评论ｒ的评论者收到的所有的ｃｏｏｌ投票数ｆ１〇心ｕｍＣｏ）ｋｔ（常用对数表示）３３ 合肥工业大学学历硕±研究生学位论文．发表评论ｒ的评论者收到的所有的ｆｉｉｎｎｙ投票数（ｔｏｇＮｕｍＦｕ）ｋｔ（常用对数表示）ｌｏｇｉＴｒａｄＶｏ）ｋ商品ｋ所属商铺的近十天的巧单数目ｔ．商品ｋ所属商铺收到的评论总数（ｌｏｇＫＮｉｍＲｅＳｔ）ｊａ（常用对数表示）４．３．３二分类模型对比基于Ｗ上，我们将支持向量机（ＳＶＭ），朴素贝叶斯（ＮａｔｉｖｅＢａｙｅｓ），Ｃ４．５决４８ＲＲＳ－ＬＬ策树（Ｊ）这三个模型也在模型的实验评论数据上实验，本文将Ｗ上ＨＳ－ＳＶＭＲＳ－ＮＢＳ－Ｊ４８个模型分别命名为ＲＲ模型、Ｒ模型和ＲＲ模型。对比的指标是ｃ－ｍ査准率（Ｐｒｅｉｓｉｏｎ）、查全率（Ｒｅｃａｌｌ）和两者综合指标（Ｆｅａｓｕｒｅ）。对比如表４．３所示。表４＂．３ＲＲＳＬＬ模型与经典二分类算法模型的对化ＴａｂＲＲＳ－．４．３ＣｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｎｔｈｅＬＬａｎｄｃｌａｓｓｉｃａｌｔｗｏｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｓ指标－ＰｒｅｃｉｓｉｏｎＲｅｃａｌｌＦｍｅａｓｕｒｅ模型ＲＲＳ－ＬＬ模型０．８３３９（１）０．７４７６（２）０．７８８４（１）ＲＲＳ－ＳＶＭ模型０）（）（）．７６１７（４０．７４４５３０．７５３０３ＲＲＳ－ＮＢ模型０（）（）（）．７６８４３０．７３３２４０．７５０４４ＲＲＳ－Ｊ４８模里！０．７７巧（２）０４（）０．７８８４（．抓１１１）－在表４．３中ＬＬ模型在查准率。巧扣８１〇１１）、查全率（民６〇３１１），我们可｜＾＾看出ＲＲＳ和两者综合指标－ｍｒｅ）二（Ｆｅａｓｕ这Ｈ个指标与经典的分类算法的对比中依然效果很好。—－在查准率（Ｐｒｅｃｉｓｉｏｎ）项中，ＲＲＳＬＬ模型的实验结果是０．拟３９，在所有模－、－－型中结果最高，分别比ＲＲＳＳＶＭ模型ＲＲＳＮＢ模型、ＲＲＳＪ４８模型的査准率高０－．０７２２、０．０６５５、０．０５８１这说明ＲＲＳＬＬ模型在预测评论有用性的准确性上是最，窩的，其预测出来有用的评论中实际上真正有用的评论占得比例是最高的，而送一项也是消费者们极其关注的项：推荐给消费者的评论到底有多少是有用的，这些评论中到底有多少能对消费者的购买决策提供有用的信息。在查全率－－（Ｒｅｃａｌｌ）中，ＲＲＳＬＬ模型的结果是０．７４７６，比ＲＲＳＳＶＭ模型的－ＮＢ型的－０．７４４５和ＲＲＳ模０．７３３２分别高了０．００３１、０．０１４４，而ＲＲＳＪ４８模型的结＂＂－，果为０．８０１４在査全率送项指标中的表示是最好的比ＲＲＳＬＬ模型髙了０．０５％，３４ 第四章ＲＲＳ－Ｌ模型的自变量冗余性分析分析其原因是因为在本次实验的数据为离散数据．，适合Ｃ４５决策树算法的实验原＂＂－理。总体来说在查全率这项指标上，ＲＲＳＬＬ模型表现还是较为良好的，这表示在所有的真实有用的评论中有较大比例的有用评论都被预测出来了，这对于检一－ＬＬ模型的全面检索能力有着定的说服力验ＲＲＳ。－ｍｅａｓｕｒｅ－－在两者的综合指标（Ｆ）上．，ＲＲＳＬＬ模型的结果是０７８８４，和ＲＲＳＪ４８一－ＲＲＳＳＶＭ．模型的结果是样的，在所有的模型中是最高的，比模型的０７５３０和－４ＲＲＳＮＢ模型的０．７５０分别商了０．００別、０．０１４４。作为综合了查准率（Ｐｒｅｃｉｓｉｏｎ）一一ｅｃａ－ｍ和査全率（Ｒｌｌ）两项的个综合性指标，Ｆｅａｓｕｒｅ成为衡量模型性能的个一重要指标，其数值的高低从定程度上反映了模型的性能。从实验的结果上看，ＲＲＳ－ＬＬ模型的性能表现优秀在对经典的二分类算法的对比中－ｍｅａｓｕｒｅ的，其Ｆ，值依然是最离的。ｉ－、基于？，ＬＬ模型依然兼顾了评论文本属性评论者属性和（＾上我们发现ＲＲＳ店铺属性Ｈ个方面，而且在与经典的二分类算法对比中，取得良好的预测效果。－－ＮＢ模型效果好很多－其明显比ＲＲＳＳＶＭ模型、ＲＲＳ，与ＲＲＳＪ４８模型性能相当，－－但在预测评论有用性中，我们依然认为ＲＲＳＬＬ模型比ＲＲＳＪ４８模型更适合，因为；首先，预测评论有用性的最终目标是提供有用的信息，帮助消费者进行购买，决策，所Ｗ推荐给消费者的评论中真实有用的评论的数量越多消费者获益就越（ｒｅｃｉｓｉｏｎｅｃａ。多，所Ｗ在査准率Ｐ）和查全率（Ｒｌｌ）中，消费者更关注査准率其次，多元线性回归模型能有效剔除对预测评论有用性没有影响的自变量，这是其他二分类算法不具有的Ｓ－ＬＬ。基于上，本文认为ＲＲ模型是适合预测评论有用性的方法。４．４小结王章的基础上ＲＲＳ－本章在第，对Ｌ模型的自变量进行分析，并对模型进行改－ＬＬ模型在减型的性能。模型在降低预进。ＲＲＳ少自变量的数目的同时，提高了模测评论有用性的成本的同时，能够帮助消费者快速识别有用的评论，降低消费者在执行购买决策时的成本。Ｓ－Ｌ模型的研巧中将第Ｈ章的ＲＲ１３个自变量进行线性相关性分析，将相关性一ＲＳ－高的自变量采取逐代入模型，测试其模型性能，通过实验得到ＲＬＬ模型，一与原ＲＲＳ－Ｌ模型相较，预测成本降低了，性能上有了定的提高。在与经典的二分类算法的对比实验中也证明了－ＬＬ模型是适合用于预测评论有用性的。ＲＲＳ研巧中减少了预测的成本，提高了预测性能，但是可用于考察评论有用性的一自变量还有很多，还有待考察和提取。进步补充用于预测子属性，提髙预测精度是未来的工作重点。３５ 合肥工业大学学历硕ｉ研究生学位论文第五章总结与展望本文Ｗ在线商品评论为研究对象，利用多元线性回归模型研究影响在线商品评论的有用性的因素，并建立了有效的预测模型。本章将对全文进行总结，并对未来的工作进行展望。５．１本文总结在大数据时代的背景下，网络商务的发展给人带来了极大的便利，而在线商品评论的出现也为潜在消费者款得但也由于网络的不确定性，、低成本等特点时而给潜在的消费者的决策增加了成本，因此，如何快速识别有用的评论，帮助消费者降低决策成本，，帮助商家提高产品或服务的质量收到了极大的关注。本文从在线商品评论有用性的研巧背景入手，阐述了预测在线商品评论有用一性所面临的问题，进而引出在此领域些亟需解决的问题Ｗ及问题解决后的意义。在线评论经历了由传统线下口碑到在线口碑，再到在线评论的发展历程，其参与度广、可信度高、研究成本低的特点引起了学者们的广泛关注，其传播过程中的四个传播因素一一评论者／转发者、数字媒体、互联网平台、接收者成为研究的重点。文中介绍近年来预测在线评论有用性的主要研巧，包括径向基函数、多元神经网络一－、多元线性回归等，同时也指出这些研究中出现共同问题用于预测评论有用性的因素仅为评论自身的文本属性，进而引出本文的研巧方向，基于评论自身文本属性、评论者属性、店铺属性这三个方面利用多元线性回归算法建立ＲＲ－－ＳＬ预测模型，取得了良好的预测效果Ｌ模型进行改进，在。最后，再对ＲＲＳ减少预测因素，降低预测成本的同时，反而提升预测精度。ＲＲＳ－Ｌ模型的主要思想是通过对预测评论有用性产生影响因素的汇总，结合多元线性回归算法建立的，针对目前领域中用于预测评论有用性的影响因。首先一素主要集中在评论本身这问题上，结合社会学和市场经济学中理论，提出了除，评论者属性和店铺属性也会影响评论的有用性的预测，评论本身外；随后本文汇总了基于评论文本、评论者和店铺呈大主属性的１４个子属性，再结合ＨＹＹ提－供的模型基础，建立了ＲＲＳＬ，通过对Ｙｅｌ，模型；再次ｐ上的爬取的数据进行实验剔除３－Ｌ１４个子属性中对预测没有影响的属性，形成最终包含了１个子属性的ＲＲＳ－Ｌ模型，，显，；最后在于其他实验模型的对比中示了ＲＲＳ的预测性能是优秀的能够为潜在消费者提供有用信息帮助其进行决策。ＲＲＳ－ＬＬ模型的主要思想是考察原ＲＲＳ－Ｌ模型中的３１个子属性之间的线性相一关性，在不降低模型性能的前提下，通过属性取样、逐代入来简化模型，降低一预测成本。首先，通过实验检验出线性相关性较高的四个子属性，通过取样逐３６ 第五章总结与展望ｅ－代入模型，在Ｙｌｐ爬取的数据进行实验，实验的效果显示ＲＲＳＬＬ模型的性能不一－仅没有降低，定的提升随后，将ＲＲＳＬＬ模型与几种经典的二类分算还有了；法进行对比结果显示ＲＲＳ－ＬＬ模型具有更好的性能。，５．２未来展望ＲＳ－Ｌ－ＬＬＹ模型，在ｅｌ爬取的评论数据上进巧实验本文提出的Ｒ模型和ＲＲＳｐ，取得了较好的预测效果一。但是在模型的建立和改进中，还是有部分问题值得进步的研究和探讨：ＲＲＳ－ＬＲＲＳ－ＬＬ（１）模型和模型是基于分析对评论有用性预测产生影响的子属性而建立的，所Ｗ在模型的建立和改进中，模型中涵盏的子属性的质量和数量都对预测的结果产生较大的影响。文中的模型中包含的子属性还是有限的，具体还有哪整因素能够对评论有用性预测产生影响，增加哪些因素能够提高模型的预测性能还有待进一步的研究。－－（２）本文中ＲＲＳＬ模型和ＲＲＳＬＬ模型面对的评论数据是从Ｙｅｌｐ上爬取的，主要是在线商品的评论数据，而在网络商务普遍的现代，在网络中进行交易的不再仅仅局限于商品，还有旅游评论、电影评论等。评论类型不同是否意味着用于一一预测其有用性的子属性也会不ＲＲＳ－ＬＬ样是需要进步探讨的，而模型是否能适应于各类评论类型也是需要研究的。３７ 参考文献ＺｈＵｊＦ．ａｎｄＺｈａｎ，Ｘ．．ＴｈｅＩｎｆｌｕｅｎｃｅｏｆＯｎｌｉｎｅＣｏｎｓｕｍｅｒ民ｅｖｉｅｗｓｏｎｔｈｅＤｅｍａｎｄｆｏｒ［。ｇＱＥｘｅｒｉｅｎｃｅＧｏｏｄｓｗｅｎ－ｐ：ＴｈｅＣａｓｅｏｆＶｉｄｅｏＧａｍｅｓＪ．ＴｔＳｅｖｅｎｔｉｉＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎ［］ｙＳｙｓｔｅｍｓ＂ＣＫ），Ｍｉｌｗａｕｋｅｅ，２００６：２５．一－－！闷随也．中国网名６．６８化这些数据定要知道ＥＢ／ＯＬ．２０１５１２２ｈｔｔ：／／ｎｅｗｓ．ｍｄｒｉｖｅｒｓ．［］［＾ｐｙｃｏｍ／１／４６１／４６１４８４．ｈｔｍ．３ＫａｔｏｎａＧ．ＥＭｕｅｌｌｅｒ．ＡＳｔｕｄｏｆＰｕｒｃｈａｓｉｎＤｅｃｉｓｉｏｎｓｉｎＣｏｎｓｕｍｅｒＢｅｈａｖｉｏｒＪＴｈｅＤｎａｍｉｃｓ［］ｙｇ［］，ｙｏｆＣｏｎｓｕｍｅｒＲｅａｃｔｉｏｎ１９５５．，４ＥｎｅｌＪａｍｅｓＦ？民ｏｅｒ０？ＢｌａｃｋｗｅｌｌａｎｄＲｏｂｅｒｔＪ．Ｋｅｅｒｒｅｉｓ．ＨｏｗＩｎｆｏｒｍａｔｉｏｎｉｓＵｓｅｄ化Ａｄｏｔ［］ｇ，ｇｇｐ－ａｎＩｎｎｏｖａｔｉｏｎ？ＪＪｏｕｍａｌｏｆＡｄｖｅｒｔｉｓｉｎｅｓｅａｒｃｈＩ９６９９４：３８．，，［；］ｇＲ（）？ＮｅｓｓＴＤａ民ＬＥ．ＭａｒｋｅｔｉｎＭｏｄｅｌｓ：ＢｅｈａｖｉｏｒａｌＳｃｉｅｎｃｅＡｌｉｃａｔｉｏｎｓ．ＪｏｕｒｎａｌｏｆＭａｒｋｅｔｉｎｙ，问ｇｐｐ＾］ｇＲｅｓｅａｒｃｈ，１９７４，１１（３）．－ａｎｓｏｎＷＡ．ＰｒｉｎｃｉｌｅｓｏｆＩｎｔｅｒｎｅｔＭａｒｋｅｔｉｎＭ．ＳｏｕｔｈＷｅｓｔｅｒｎＣｏｌｌｅｅＰｕｂｌｉｓｈｉｎｏｍａｎ阀Ｈｐｇ［］ｇｇＣｐｙ，１９９９．７ＵｌｒｉｃｈＫｉｌｌｅｒＷ．ＭＳｃｈｗｅｒｄｔｎｅｒＨ．ＣＨａｌｌｓａｎｄＫ．ＤＣａｒｄ．Ｔｒａｎｓｒｅｓｓｉｖｅｔｅｃｔｏｎｉｓｍｉｎｔｈｅｅａｓｔｅｒｎ［］，，ｐＰｅｎｏｋｅａｎｏｒｏｇｅｎｙ，Ｃａｎａｄａ：ＣｏｎｓｅｑｕｅｎｃｅｓｆｏｒＰｒｏｔｅｒｏｚｏｉｃｃｒｕｓｔａｌｋｉｎｅｍａｔｉｃｓａｎｄｃｏｎｔｉｎｅｎｔａｌｆｒｔｔ－ａｍｅｎａｉｏｎ巧？ＰｒｅｃａｍｂｒｉａｎＲｅｓｅａｒｃｈ１９９９，９３１：５１７０．ｇ＾（）口碑主一：巧ＣＩＣ网络口碑硏巧咨询公司？洞察网络题网络口碑在购买决策中扮演的角色？网［？络口碑白皮书系列．［Ｍ］２００９：５１１，ａｒｍｏｎＡ．ＡｍａｚｏｎＧｌｉｔｃｈＵｎｍａｓｋｓＷａｒＯｆＲｅｖｉｅｗｅｒｓ？ＮｅｗＹｏｒｋＴｉｍ巧２００４．例Ｈ…，０—－－ｈｔｔ／／１周献．《封杀王老吉》成功的网络事件营销［胆Ｂ／ＯＬ．２００８１１２５：ｎｕｂｓ．ｎｕ．ｃｎ／［］］［］ｐｊ＝ｚ／？９５．ｇｐＢａｓｕｒｏｙ，Ｓ．，Ｃｈａｔｅｉｊｅｅ，Ｓ．ａｎｄＲａｖｉｄ，Ｓ．Ａ．ＨｏｗＣｒｉｔｉｃａｌａｒｅＣｒｉｔｉｃａｌＲｅｖｉｅｗｓ？ＴｈｅＢｏｘＯｆｉｃｅＥｆｆｔｓｆ－－ｅｃｏＦｉｌｍＣｒｉｔｉｃｓＳｔａａｎｄＢｕｄｅｔＪｌｔｉ６７０３，ｒＰｏｗｅｒ，［］，ＪｏｕｒｎａｏｆＭａｒｋｅｎ，２００３：１１１７．ｇｇ，。巧Ｋｉａｓｈｂｅｒｇ，Ｊ．抑ｄＳｈｕｇａｉｉｊＳ．Ｍ．ＦｉｌｍＣｒｉｔｉｃｓ：ＩｎｆｌｕｅｎｃｅｒｓｏｒＰｒｅｄｉｃｔｏｒｓ？…．Ｊｏｕｒｎａｌｏｆ－Ｍａｒｋｅｔｉｎ１９９７６１：６８７８．ｇ，，。３］ＹａｎｇＬｉｕ，ＸｉａｎｇｊｉＨｕａｎｇ，Ａ＾ｕｎＡ打，ａｎｄＸｉａｏｈｕｉＹｕ．ＲｅｖｉｅｗｓＡｒｅＮｏｔＥｑｕａｌｌｙＩｍｐｏｒｔａｎｔ：Ｐｒｅｄｉｃｔ！凸ｇｔｈｅＨｅｌｐｆｔｉｌｎｅｓｓｏｆＯｎｌｉ打ｅＲｅｖｉｅｗｓ［Ｃ］．ＥｉｇｈｔｈＢＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｓ凸ｃｅｏｎＤ－ａｔａＭｉｎｉｎｇ．Ｐｉｓａ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２００８：４４３４５２■巧ＡｍｄｔＪ．Ｒｏｌｅｏｆｒｏｄｕｃｔｌａｔｅｄｃｏｎｖｅｒｓａｔｉｏｎｓｉｎｔｈｅ出ｆｆｉｉｓｉｏ打ｏｆａｎｅｗｒｏｄｕｃｔＪ．Ｊｏｕｒｎａｌｏｆｐｐ［］Ｍａ？ｒｋｅｔｉ打ｅｓｅａｒｃｈ．１９６７４９１２９５．ｇ，民口）。－Ｗｅｓ－１５ｔｂｒｏｏｋＲｏｂｅｒｔＡ．Ｐｒｏｄｕｃｔ／ｃｏｎｓｕｍｔｉｏｎｂａｓｅｄＡｆｆｅｃｔｉｖｅＲｅｓｏｎｓｅｓａｎｄｏｓｔｕｒｃｈａｓｅ［］，ｐｐｐｐｏｃｅ？ｐｒｓ化ｓＪ．ＪｏｕｒｎａｌｏｆＭａｒｋｅｔｉｎＲｅｓｅａｒｃｈ．１９８７，２４８：２５５２７０．［］ｇ（）６Ａｎｄｅｒｓｏｎ巨？Ｗ．ＳｕｌｌｉｖａｎＭａｒＷ．Ｔｈｅａｎｔｅｃｅｄｅ打ｔｓａｎｄｃｏｎｓｅｕｅｎｃｅｓｏｆｃｕｓｔｏ班知ｓａｔｉｓｆａｃｔｉｏｎ。］，ｙｑ３８ ｆｏ？ｒｆｉｒｍｓ．ＭａｒｋｅｔｉｎＳｃｉｅ打ｃｅ．１９９３１２：１２５１４３．，阴ｇ１７ＴａｘＳ．Ｓ．ＢｒｏｗｎＳ．Ｗ．ＣｈａｎｄｒａｓｈｅｋａｒａｎＭ，ＣｕｓｔｏｍｅｒｅｖａｌｕａｔｉｏｎｓｏｆｓｅｖｉｃＣｏｍｌｉｔ［］，，ｒｅｐａｎｅｘｐｅｒｉｅｎｃｅｓ：ｉｍｐｌｉｃａｔｉｏｎｓｆｏｒ巧ｌａｔｉｏｎｓｈｉｐｍａｒｋｅｔｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｒｋｅｔｉｎｇ．１９９８，６２４：６（Ｋ７６．（）二一１，朱顺德．十世纪的日碑营销及其在中国的发展潜力机．管理前沿２００３［巧黄英，，６？：３３３６，（）—１９阀克儒，网络匿名性、企业形象与关系品质对网络口碑影响之研究＾＞１线上游戏为例．［］１［Ｄ］，台中巧立中兴大学，２００４。２０Ｇｅ化Ｂ．Ｄ．ＳｕｎｄａｒａｍＳ．Ａｄａｔｉｎｗｏｒｄｏｆｍｏｕｓｅ．Ｂｓｉ．２００２４５４［］，ｐｇ化阴ｕｎ的ＳＨｏｒｉｚｏｎｓ：，（）２？１２５．１Ｃｈｒｉｓｔ．ｉａｎｓｅｎＴＴａｘＳ．Ｓ．Ｍｅａｓｕｒｉｎｗｏｒｄｏｆｍｏｕｔｈｔｈｅｓｔｉｏｗｈｅｎ？．口］，ｇ：ｑｕｅｎｓｏｆｗｈｏａｎｄＣ［］－－ＪｏｕｒｎａｌｏｆＭａｒｋｅｔｉｎｏｍｍｕｎｉｃａｔｉｏｎｓ．２０００６３：１８５１９９．ｇ，Ｃ（）ｅｌｌａｒｏｅａｓＣ．Ｔｈｅ出ｉｔｉｔｉｏｎｏｆｗｏｒｄｏｆｍｏｔｈ：Ｐｒｏｍｉ化ｈａｌｌｅｓｆｏｎｌｉｎｅｆｅｅｄｂａｃｋ口句Ｄ，ｇｚａｕａｎｄｃｅｎｇｏｈａｎ？ｍｅｃｉｓｍｓ阴．ＭａｎａｇｅｍｅｎｔＳｃｉｅ打说．２００３，４９（１０）：１４０７１４２４．－－２３Ｔ－．ＨｅｎｎｉＴｈｕｒａＵＫ．Ｐ．ＧｗｉｒＧ．ＷａｌｓｈＤ．ＤＧｒｅｍｅｃｉｉ［］ｇｓｎｎｅ，．．ｋｒ．Ｅｌｔｒｏｎｃｗｏｒｄｏｆｍｏｕｔｈｖａ－ｒｔｃｏｎｓｕｍｅｒｏｉｎｉｏｎｌａｔｆｏｒｍｓｈａｔｍｏｔｉｖａｔｅ化ｉｌｐｐ；Ｗｓｃｏｎｓｕｍｅｒｓａｃｕａｔｅｔｈｅｍｓｅｌｖｅｓｏｎｔｈｅ￣Ｉｎｔｅｍｅｔ？［Ｊ］．ＪｏｕｒｎａｌｏｆＩｎｔｅｒａｃｔｉｖｅＭａｒｋｅｔｉｎｇ．２００４１８１：３８５２．，（）ａｔｔａＰ．Ｒ？，ＣｈｏｗｄｈｕｒＤ．Ｎ．ａｎｄＣｈａｋｒａｂｏｒｔＢ．氏．Ｖｉｒａｌｍａｒｋｅｔｉｎ：ｎｅｗｆｏｒｍｏｆ口勺Ｄ＾ｙ，ｙ，ｇ－－ｍｏｕＴ？ｗｏｒｄｏｆｔｈｔｈｒｏｕｇｈＩｎｔｅｍｅｔ［Ｊ］．ｈｅＢｕｓｉｎｅｓｓＲｅｖｉｅｗ，２００５，３口）：６９７５．２一５郭国庆，杨学成，张杨．口碑传播对消费者态度的影响：．管理评论，［］个理论模型阴２００７－１９３２０２６．，（）：［２６］章晶晶？网络环境下口碑再传播意愿的影响因素研巧网．抗州：浙江大学，２００７．２７Ｓｕｂｒａｍａｎ－ｉＭ．Ｒ．ａｎｄＢ．ＲａｌＫｎｏｗｌｅｄＳｈａｒｉｎｄｆｌｉｎ［］，ｊａｇｏｐａａｎ．ｇｅｇａｎＩｎｕｅｎｃｅＯｎｌｉｎｅＳｏｃｉａｌＮｅ＾ｔｗｏｒｋｓＷａＷｒａｌＭａｒｋｅｔｉｎｇ．ＣｏｍｍｕｎｉｃａｔｉｏｎｓｏｆｔｈｅＡＣＭ．２００３，４６：３００３０７．［Ｃ］。。ｅ－ｉｎｂｅｒＢ．Ｄ．ａｎｄＬ．Ｄａｖｉｓ．Ｅｘｌｏｒｉｎ化ｅＷＯＷｉｎｏｎｌｉｎｆｋｌ口巧Ｗｇ，ｐｇｅａｕｃｔｉｏｎｅｅｄｂａｃ…？ＪｏｕｒｎａｏｆＢｓ？ｕｉｎｅｓｓＲｅｓｅａｒｃｈ．２００５，５８（１１）：１６０９１６２１．２９Ｃ．Ｄｅｌｌａｒｏｃａｓ，Ｘ．．Ｚｈａｎｇ，Ｎ．Ａｗａｄ．Ｅｘｌｏｒｉｎｔｈｅｖａｌｕｅｏｆｏｎｌｉｎｅｒｏｄｕｃｔｒｅｖｉｅｗｓｉｎ［］Ｑｐｇｐｆｏｒｅｃａｓｔｉｎｇｓａｌ朗：Ｔｈｅｃａｓｅｏｆｍｏｔｉｏｎｐｉｃｔｕｒｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＩｎｔｅｒａｃｔｉｖｅＭａｒｋｅｔｉｎｇ．２００７，２１（４）：２３＾５．３０罗时含．口碑沟通对购买决策的影响研巧网．杭州：浙江大学，２００７．［］口１Ｈｏｆｉｎａｎ０■Ｌ．，ＮｏｖａｋＴ．ＲＭａｒｋｅｔｉｎｉｎｈｅｎｎｅ出ａｃｏｍｕｔｅｒ２ｉｎｅ出ａｔｅｄｅｎｖｉｒｏｎｍｅｎｔｓ：］ｇｙｐｐＣＯ打ｃｅ？ｐｔｕａｌｆｏｕｎｄａｔｉｏｎｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｒｋｅｔｉｎｇ．１９９６，６０：５０６８．口）３２ＢｉｃｋａｒｔＢＳｃｈｉｎｄｌｅｒ民Ｍ．Ｉｎｔｅｅｔｆｏｕｍｓａｉｔｉｌｓｏｏｆｉｔｉｏ，［］，ｒｎｒｓｎｆｌｕｅｎａｕｒｃｅｓｃｏｎｓｕｍｅｒ打ｆｏｒｍａｎ［Ｊ］Ｊｏｕｒｎａ－ｌｏｆＩｎｔｅｒａｃｔｉｖｅＭａｒｋｅｔｉｎ２００１１５３：３１４０．ｇ，，（）Ｊ．ＪａｃｏｂＤ．Ｅ．ＳｅｌｌｅｒＣ．Ｋ．Ｂｅｍｉｎ．ＢｒａｎｄＣｈｏｉｃｅＢｅｈｉｏｒａｓｉｏｆｆｏｒｍａｔｉｏｎ口引ｙ，ｐ，ｇａｖａＦｕｎｃｔｏｎＩｎＬｏａｄ１？：ＲｅｌｉｃａｔｉｏｎａｎｄＥｘｔｅｎｓｉｏＪ．ＪｏｕｒｎａｌｏｆＣｏｎｓｕｍｅｒＲｅｓｅａｒｃｈ．１９７４扣４２．ｐ却］，。）：３９ 口叫ＰａｒｋＤＨ，ＬｅｅＪ．ｅＷＯＭｏｖｅｒｌｏａｄａｎｄｉｔｓｅｆｅｃｔｏｎｃｏｎｓｕｍｅｒｂｅｈａｖｉｏｒａｌｉｎｔｅｎｔｉｏｎｄｅｅｎｄｉｎｏｎｐｇ－ｃｏｎｓｕｍｅｒｉｎｖｏｌｖｅｍｅｎｔＪ．ＥｌｅｃｔｒｏｎｉｃＣｏｍｍｅｒｃｅＲｅｓｅａｒｃｈ友Ａｌｉｃａｔｉｏｎｓ２００８７４：３８６３９８．［］ｐｐ，，（）ｔ抑ｄＳｏｎｅｉｄｅｒＦ．ＴｈｅＰｓｃｈｏｌｏｏｆＩｎｔｅｒｅｒｓｏｎａｌ艮ｅｌａｉｏｎｓＭ．ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌＰｒｅｓｓ口引Ｈ，ｙｇｙｐ［］巧，１９５８．６ＳｅｎＳＬｅｒａｉａｎＤ化ｍｅｔ．Ｗｈａｒｅｏｕｌｌｉｎｈｉｓ？Ａｎｅｘａｍｉｎａｔｉｏｎｉｎｔｏｎｅａｔｉｖｅｃｏｎｓｕｍｅｒｒｅｖｉｅｗｓ口，］ｙｙｇｇＷＭａ－ｏｎｔｈｅｅｂｔｎ．ＪｏｕｍａｌｏｆＩｎｔｅｒａｃｔｉｖｅｒｋｅｔｉｎｇ，２００７，２１４：７６９４．（）３７Ｒ－Ａ．Ｂａｕｅｒ．Ｃｏｎｓｕｍｅｒｂｅｈａｖｉｏｒａｓｒｉｓｋｔａｋｉｎ．Ｄｎａｍｉｃｍａｒｋｅｔｉｎｆｏｒ泣ｃｈａｎｉｎｗｏｒｌｄＣ．［］ｇｙｇｇｇ［］Ｐｒｏｃｅｅｄ－ｉｎｇｓｏｆｔｈｅ４３ｒｄｃｏｎｆｅｒｅｎｃｅｏｆｔｈｅＡｍｅｒｉｃａｎＭａｒｋｅｔｉｎｇＡｓｓｏｃｉａｔｉｏｎ．１９６０：３８９３９８．３８Ｊｏｚ６ｅＬａ－ｉｅｒｒｅ．ＣｕｓｔｏｍｅｒｅｒｃｅｉｖｅｄｖａｌｕｅｉｎｉｎｄｕｓｔｒｉａｌｃｏｎｔｅｘｔｓＪ．ＪｏｕｒｎａｌｏｆＢｕｓｉｎｅｓｓ在［］ｐｐ［］虹Ｍ－ｄｕｓｔｒｉａｌ２０００１２：１２２１４．ａｒｋｅｔｉｎ５５ｇ，，（）－－Ｍｏｕ口別Ｖｏｙ巧Ｐ．Ａ．ＷｏｒｄｏｆｔｈＰｒｏｃｅｓｓｅｓＷｔｈｉｎａＳｃｒｖｉ说ｓＰｕｒｃｈａｓｅＤｅｃｉｓｉｏｎＣｏｎｔｅｘｔｍ．Ｊｏ服巧１ｏｆ－ＳｅｒｖｉｃｅＲｅｓｅａｒｃｈ２０００３２：１６６１７７．，，（）［４０］Ｊ．Ｃ．Ｃａｒｒ，Ｒ．Ｋ．Ｂｅａｔｓｏｎ＾Ｊ？化Ｃｈｅｒｒｉｅ，Ｔ．Ｊ．Ｍｉｔｃｈｅｌｌ，Ｗ？民．Ｆｒｉｇｈｔ，Ｂ．Ｃ．ＭｃＣａｌｌｕｍ，ａｎｄＴ．Ｒ．Ｅｖａｎｓ．民说ｏｎｓｔｒｕｃｔｉｏｎａｎｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆ３Ｄｏｂｊｅｃｔｓｗｉｔｈｒａｄｉａｌｂａｓｉｓｆ＼ｉｎｃｔｉｏｎｓ［Ｃ］．虹Ｐｒｏｃ．＇Ｓ－ＩＧＧＲＡＰＨ０１２００１６７７６．，，４ａｎｉＵＸｉａｎｉＨｕａｎＡｕｎＡｎａｎｄＸｉａｏｈｕｉＹｕ．Ｍｏｄｅｌｉｎａｎｄｒｅｄｉｃｔｉｎｔｈｅｈｅｌｉｌｎｅ巧ｏｆ［。ＹｇＬｊｇ，ｊｇ巧ｇｐｇｐｆｉｏｎｌｉｎｅｒｅｖｉｅｗｓ［Ｃ．ＥｉｈｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎ．Ｐｉｓａ：ＢＥＥＥ］ｇｇＣｏｍｔ－ｕｅｒＳｏｃｉｅｔ２００８：４４３４５２．ｐｙ，４ｈａｓｈｅｉＭ，ＢｒｉＭＡｎａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ，ｄ，ｍｏｄｅｌｆｏｒｔｉｍｅｓｅｒｉｅｓｆｏｒｅｃａｓｔｉｎＪ．［巧Ｋ巧ａ（ｐｑ）ｇ！；］Ｅｘｒｔ－ｅＳｓｔｅｍｓｗ地ＡＥｃａｔｉｏｍ，２０１０，３７）：４７９４８９．ｐｙｐｐ＂４３ＳａｎａｅＬｅｅＪｏｏｎＹｅｏｎＣｈｏ．ＰｒｅｄｉｃｔｉｎｔｈｅｈｅｌｆＵｌｎｅ巧ｏｆｏｎｌｉｎｅｒｅｖｉｅｗｓｕｓｉｎｍｕｌｉｌａｅｒ［］ｇ，ｔｊｇｐｇｙｅｅ—ｐｒｃｐｔｒｏｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ…？ＥｘｐｅｒｔＳｙｓｔｅｍｓｗ脯Ａｐｐｌｉｃａｔｉｏｎｓ，２０１４，４１：３０４１３０４６．巧）＂＂［４ＷＣａｏＱ，ＤｕａｎＷ，ＧａｎＱ．Ｅｘｐｌｏｒｉｎｇｄｅｔｅｒｍｉｎａｎｔｓｏｆｖｏｔｉｎｇｆｏｒ化ｅｈｅｌｐｆｕｌ打ｅｓｓｏｆｏｎｌｉ打ｅｕｓ知－ｒｅｖｉｅｗｓ：ＡｔｅｘｔｍｉｎｉｎａｒｏａｃｈＪ．ＤｅｃｉｓｉｏｎＳｕｏｒｔＳｓｔｅｍｓ２０１１５０２：５１１５２１，ｇ，，ｐｐ［］ｐｐｙ（）４５Ｚｕｎｉａｎｈａｎ，ｉａｎＷｅｉａｎｄＧｕｏｉｎｈｅ打？Ｅ巧ｉｍａｔｉｎＯｎｌｉｎｅＲｅｖｉｅｗＨｅｌｆｕｌｎｅｓｓｗｉ化［］ｑｇＺｇＱｇｑｇＣｇｐＰｒｏｂａｂｉｌｉｓｔｉｃＤｉｓｔｒｉｂｕｔｉｏｎａｎｄＣｏｎｆｉｄｅｎｃｅＣ．ＰｒｏｃｅｅｄｉｎｏｆｔｈｅＳｅｖｅｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌ［］ｇＣｏｎｆｅｒｅｎｃｅ－ｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓａｎｄＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇ．２０１４：４１１４２０．４巧ＳｅｇｈｏｕａｎｅＡＫ．ＮｅｗＡＩＣｃｏｒｒｅｃｔｅｄｖａｒｉａｎｔｓｆｏｒｍｕｌｔｉｖａｒｉａｔｅｌｉｎｅａｒｒｅｒｅｓｓｉｏｎｍｏｄｅｌ［ｇ－化ｌｅｃｔｉｏｎｔｔｒ？皮ＥＥＴｒａｎｓａｃｉｏｎｓｏｎＡｅｒｏｓａｃｅａｎｄＥｌｅｃｏ打ｉｃＳｓｔｅｍｓ２０１１４７２：１１５４１１６５．ｔｎｐｙ，，（）４７王惠文，孟洁．多元线性回归的预测建模方法ｍ．北京航天航空大学学报，２００７，［〕的４－：５００５０４．（）４８ＡｎｉｎｄａＧｈｏｓｅＰａｎａｉｏｔｉｓ０？ＤｅｓｉｎｉｎＮｏｖｅｌＲｅｖｉｅｗＲａｎｋｉｎＳｓｔｅｍｓＰｒｅｄｉｃｔｉｎ［］ｙ，ｇｇｇｇｙ：ｇＵｓｅｆｏｌｎｅｓｓａｎｄｔａｐａｃｔｏｆ民ｅｖｉｅｗｓ［Ｃ］？阶ｏｃｅｅｄｉｎｇｓｏｆ化ｅ山打化ｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＥ２００７－ｌｅｃｔｒｏｎｉｃｃｏｍｍｅｒｃｅ．ＮｅｗＹｏｒｋ：ＡＣＭＰｒｅｓｓ：３０３３１０．，李一４９郝媛媛叶强．基．管理科学学［］，，军于影评数据的在线评论有用牲影响因素研究阴报，２０１０打－１３８８８．，巧）４０ ．旅游在线评论有用性影响因素分析．：２０１１．［５巧郑时［Ｄ］哈尔滨哈尔滨工业大学，－．０１２２：１１８１２化削］王平，代宝消费者在线评论有用性影响因素实证硏究化统计与决策，２，（）［５２］ＫａｔｏｎａＧ．ＥＭｕｅｌｌｅｒ．ＡＳｔｕｄｙｏｆＰｕｒｃｈａｓｉｎＤｅｃｉｓｉｏｎＣｏｎｓｕｍｅｒＢｅｈａｖｉｏｒ：ＴｈｅＤｎａｍｉｃｓｏｆｇｙＣｏｎｓｕｍｅｒＲｅａｃｔｉｏｎ［Ｍ］．ＮｅｗＹｏｒｋ：ＮｅｗＹｏｒｋＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９５５．－ｍ曲Ｊｌｄｕｔｌｔｔｉｉ化ｅｄｉｆｕｉｏｆａｔｏｕｒｎａｌｏｆ．ＲｏｅｏｆｒｏｃｒｅａｅｄｃｏｎｖｅｒｓａｏｎｓｎｓｏｎｎｅｗｏｄｕｃＪ．Ｊ口引Ａｐｐｒ［］Ｒｅｓｅａｒｃｈ７４－Ｍａｒｋｅｔｉｎ１９６３：２９１２９５．ｇ，，（）口叫ＪｕｄｉｔｈＡ．Ｃｈｅｖａｌｉｅｒ，ＤｉｎａＭａｙｚｌｉｎ．Ｔｈｅｅｆｅｃｔｏｆｗｏｒｄｏｆｍｏｕ化ｏｎｓａｋｓ：Ｏｎｌｉｎｅｂｏｏｋｒｅｖ－ｉｅｗｓＪＪｏｕｒｎａｌｏｆＭａｒｋｅｔｉｎＲｅｓｅａｒｃｈＪＭＲ２ＯＯ６４３：３４５３５４．．，，［；］ｇ（）０）ａｔｚ．ＬａｚａｆｅＰｅｒｓｏｎａｌＩｎｆｌｕｅｎｃｅ：ＴｈｅＰａｒｔＰｌａｅｄｂＰｅｏｌｅｉｎｔｈｅＦｌｏｗｏｆＭａｓｓ口３ＫＥ，ＰａｕｌＦｒｓ化ｙｙｐＣｏｍｍｕｎｉｃａｔｉｏｎｓＭ．ＮｅｗＹｏｒｋ：ＦｒｅｅＰｒｅｓｓ１９５５．［］，－ｍｅ５Ｋｉｍ姐ｄＪ．Ｓｅｏ，ＨｉｅｒｆｏｒｍａｎｃｅＦＡｒｅｔｒｉｅｖａｌｕｓｉｎ孤ａｕｔｏｍａｔｉｃｃｌｕｓｔｅｒｉｎｔｈｏｄｏｆ［巧吐班ｐＱｇｇｕｅ－ｌｏｓＪ．Ｉｎｆｏｒｍａｔｉｏｎｒｏｃｅｓｓｉｎａｎｄｍａｎａｅｍｅｎｔ．２００６４２３：６５０６５Ｌｑｒｙｇ［］ｐｇｇ，（）口７］乂ＺｈｏｕａｎｄＷ．Ｂ．Ｃｒｏｆｌ：Ｄｏｃｕｍｅｎｔｑｕａｌｉｔｙｍｏｄｅｌｓｆｏｒｗｅｂａｄｈｏｃｒｅｔｒｉｅｖａｌ［Ｃ］．ＩｎＰｒｏｃｅｅｄｉｎｇｏｆｔｈｅＡＣＭＦｏｕｒｔｅｅｎｔｈＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ２００５－：；３３１３３２．５８ＳｒｉｋｕｍａｒＫｒｉｓｈｎａｍｏｏｒｔｈ，ＬｉｎｕｉｓｔｉｃｆｅａｔｕｒｅｓｆｏｒｒｅｖｉｅｗｈｅｌｆｕｌｎｅｓｓｒｅｄｉｃｔｉｏｎＪ．Ｅｘｅｒｔ［］ｙｇｐｐ［］ｐＳｓ－ｔｅｍｓｉｔｈＡｌｉｃａｔｉｏｎｓ２０１５４２ｌ：３７５１３７巧ｙｗｐｐ，，（）＊［５９］ＰａｕｌＦｅｌｉｘＬａｚａｒｓｆｅｌｄ，ＢｅｒｎａｒｄＢｅｒｅｌｓｏｎ，ＨａｚｅｌＧａｕｄｅｔＴｈｅｐｅｏｐｌｅｓｃｈｏｉｃｅＭ．ＮｅｗＹｏｒｋ：［］ＣｏｌｕｍｂｉａＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ，１９６８．６０Ｈ．ｖａｎｄｅｒＨｅｉｄｅｎＴ．Ｖｅｒｈａｅｎ．Ｕｎｄｅｒｓｔａｎｄｉｎｏｎｌｉｎｅｕｒｃｈａｓｅｉｎｔｅｎｔｉｏｎｓ：ｃｏｎｔｒｉｂｕｔｉｏｎｓｆｒｏｍ［］，ｇｇｐｊｔｅｃｈｎｏｌｏａｎｄｔｒｕｓｔｅｒｓｅｃｔｉｖｅｓＪ．ＥｕｒｏｅａｎＪｏｕｒｎａｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｓｔｅｍｓ２００３ｇｙｐｐ［］ｐｙ，，－１２ｌ：４１４８．（）６１ＡｎｉｎｄｙａＧｈｏｓｅ，ＰａｎａｉｏｔｉｓＧ．Ｅｓｔｉｍａｔｉｎｔｈｅｈｅｌｆｕｌｎｅｓｓａｎｄｅｃｏｎｏｍｉｃｉｍａｃｔｏｆｒｏｄｕｃｔ［］ｇｇｐｐｐｒｅｖｉｅｗｓ：ｍｉｎｉｎｇｔｅｘｔａｎｄｒｅｖｉｅｗｅｒｃｈａｒａｃｔｅｒｉｓｔｉｃｓＪ．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｏｎｋｎｏｗｌｅｄｅａｎｄｄａｔａ［］ｇｅｎ巧－ｉｎｅｅｒｉｎ２０１１１０：１４９８１５１２．ｇｇ，，（）６２杨宜平，，，周由胜．两样本均值的假设检验及其Ｒ软件实现Ｊ．教育教学论坛２０１３［］［］２０－：２１３２１．（）６３ＦｒｉｅｄＪ．Ｈ．Ｇｒｅｅｄｆｕｎｃｔｉｏｎａｒｏｘｉｍａｔｉｏｎ；ＡＧｒａｄｉｅｎｔｂｏｏｓｔｉｎｇｍａｃｈｉｎｅＪ．ＡｎｎａｌｓｏｆＳｔａｔｉｓｔｉｃｓ，［］ｙｐｐ［］２０００２９５９－：１１８１２３２．，（）［６４］张华伟，王明文，甘丽新？基于随机森林的文本分类模型研究阴．山东大学学报：理学版，２００６４１３－：５９．，（）６５ＡｎｄｅｒｓｏｎＥＷ．Ｃｕｓｔｏｍｅｒｓａｔｉｓｆａｃｔｉｏｎａｎｄｗｏｒｄｏｆｍｏｕｔｈ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｅｒｖｉｃｅＲｅｓｅａｒｃｈ，１９９８，［］－１１：５１７．（）［６刮ＫａｔｚＥ，ＰａｕｌＦ．Ｌａｚａｒｓｆｅ化Ｐｅｒｓｏｎａｌ虹ｆｌｕｅｎｃｅ；ＴｈｅＰａｒｔＰｌａｙｅｄｂｙＰｅｏｐｌｅｉｎｔｈｅ巧ｏｗｏｆＭａｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓＭ．ＮｅｗＹｏｒｋ：ＦｒｅｅＰｒｅｓｓ，１９５５．［］６７？基于多元线性回归的昆虫图像分割［Ｄ．绩州；江西理工大学２０１４．］王玻］，［４１ ２〇０８５－６：４６４７．巧王振氣陈莉紙多元线性回归统计预测模型的应用化理论新探，，（）［２００４２６３２－４２６．种张学工．关于统计学习理论与支持向量机化自动化学报，Ｕ）：［〇ＤａｉＷＸｕｅ０Ｙａｎｅｔａｌ．Ｔｒａｎｓｆｅｒｒｉｎｎａｉｖｅｂａｅｓｃｌａｓｓｉｆｉｅｒｓｆｏｒｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ．，氏，ｇｙ！；。１７］ｇＱｆｅ－ＡａａｉＣｏｎｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．２０１５：５４０５４５．７ＴｉｎａＲ．ＰａｔｉｌＭｒｓ．Ｓ．Ｓ．Ｓｈｅｒｅｋａｒ，Ｐｅｒｆｏｒｍａｎｃｅａｎａｌｓｉｓｏｆｎ沾ｖｅｂａｅｓａｎｄＪ４８ｃｌａｓｓｉ扫ｃａｔｉｏｎ［，ｙＵｙａｆｄｌｉｆｉｃａｔｉｏｎＪＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌＯｆＣｏｍｕｔｅｒＳｃｉｅｎｃｅＡｎｄｌｇｏｒｉｔｈｍｏｒａｔａｃａｓｓ［］，ｐ－Ａｌｉｃａｔｉｏｎｓ２０１３，６２２５６２６１．ｐｐ，（）：．基于Ｐｅａｒｓｏｎ系数的芯Ｊ．计第机时代７２王修竹刘自伟齐阳等片数据预处理方法［，［］，，，］２００６－１１：３７３８，（）：７３窩惠敬．，２０００２０５．处理多元线性回归中自变皇共线性的几种方法阴数量统计与管理，（）［］４９－５５４２ 攻读硕±学位期间发表的论文１）参加的学术交流与科研项目（１）基于协同训练策略的不完全标记数据流分类问题研巧（编号：６口７３２９２），－国家自然科学基金，２０１３２０１６。（２）未标记数据流中的迁移学习关键问题研巧（编号：６１３０５０６３），国家自然科－学基金，２０１４２０１６。（３）基于特征扩展的Ｗｅｂ短（编号：２０１３０１１１１１００１１）文本数据流分类方法研巧，－教育部博±点博导基金，２０１４２０１６，２）发表的学术论义（１）胡学钢．Ｊ．计，陈方蹇，张玉红在线商品评论有用性因素研巧［］算机应用研究，２０１６，１１（已录用）４３ 特别声明本学位论文是在我的导师指导下独立完成的。在研究生学习期间，我的导师要求我些决抵制学术不都行为。在此，我郑重声明，本论文无任何学术一不端行为，如果被发现有任何学术不端行为，切责任完全由本人承担。学位论文作者签名：了签字日期；年中月日４４

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 57



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

大家都在看

近期热门

在线商品评论有用性预测及影响因素研究

在线商品评论有用性预测及影响因素研究

最近更新

大家都在看

相关文章

相关标签