中文客户评论对象特征的抽取与聚类方法.pdf

中文客户评论对象特征的抽取与聚类方法.pdf

ID:53735837

大小:270.51 KB

页数:4页

时间:2020-04-21

中文客户评论对象特征的抽取与聚类方法.pdf_第1页
中文客户评论对象特征的抽取与聚类方法.pdf_第2页
中文客户评论对象特征的抽取与聚类方法.pdf_第3页
中文客户评论对象特征的抽取与聚类方法.pdf_第4页
资源描述:

《中文客户评论对象特征的抽取与聚类方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、中文客户评论对象特征的抽取与聚类方法周红庆.吴扬扬(华侨大学计算机科学与技术学院,福建厦门361021)摘要:通过利用Apfiofi算法抽取评价对象的候选特征集,结合计算领域一致度和领域相关度对候选特征进行过滤,实现了对中文客户评论的对象特征挖掘,并且用实验验证了该方法的有效性。关键词:特征挖掘;领域一致度;领域相关度中图分类号:TP311.13文献标识码:A文章编号:1674—7720(2014)15—0069—03Extractingandclusteringfeaturesofevaluationobje

2、ctinChineseuserreviewsZhouHongqing,WuYangyang(CollegeofComputerScienceandTechnology,HuaqiaoUniversity,Xiamen361021,China)Abstract:Thispaperproposesanapproachtoextractfeaturesofevaluationobjectinuserreviews.Atfirst,candidatefeaturesareextractedbyusingAprioria

3、lgorithm.Then,domainconsistentanddomainrelevanceareusedtofiltercandidatefeatures.Experimentalresultsdemonstratethevalidityoftheproposedmethod.Keywords:featureextraction;domainconsistent;domainrelevance评论挖掘是一种以从评论数据中探寻有用信息为中名词和具有名词功能的形容词或者动词或者名词短目标的非结构化数据挖掘技术

4、。主要包含评论对象的特语作为项,每一篇评论项组合起来作为一个事务在事征挖掘、评论观点挖掘、评论观点的极性以及强度判断、务文件中存为一行。将每个评论对象的所有评论语料评论挖掘结果的汇总以及按用户观点排序4个子任务⋯。中的事务都存储在一个事务文件中。经过预处理后,每评价对象的特征挖掘是指从大量的客户评论中挖个评论对象均有一个事务文件。然后,应用Apriori算法掘出用户关注的评价对象特征。这一技术是分析用户对从事务文件中提取频繁项集,并通过剪枝方法去除掉评价对象的具体特征所持的情感倾向的前提,其准确性一些不合适的频

5、繁项,得到评价对象的候选特征集。最和全面性是非常重要的。近年来,国内外研究人员对评后,利用特征的领域相关度和领域一致度定义综合评价对象的特征挖掘进行深入研究。他们采用很多不同方定指标,根据该指标对候选特征进行过滤。得到评价对法来对特征进行挖掘[2-6]。本文针对中文客户评论的特象的特征。征挖掘的性能不够理想的问题[7],提出了一种基于Apriofi算法抽取候选特征集,集成领域一致度和领域相关度方法对候选特征进行过滤的方法.实现中文客户评论对象的特征挖掘,并且通过实验验证这一方法的有效性。1评论对象的特征挖掘中文

6、客户评论对象的特征挖掘过程如图1所示。首先。输入不同评论对象的评论语料;然后对这些评论语评价对象的料进行预处理.利用中科院计算所所研发的ICTCLAS特征过滤系统对评论文本语料进行分词和二级词性标注,以评论语料中句子为单位,进行词性过滤,提取出评论语料图1中文评论客户评论对象的特征挖掘过程《微型机与应用》2014年第33卷第15期欢迎网上投稿WWW.pcachina.tom691.1评价对象的候选特征挖掘,/得到包含项f的多维频繁项集S定义1频繁项:设,是m个项目的集合,是n个foreachl∈Sdo//扫描S

7、中的多维频繁项事务集合,其中每个事务S是一个项目集合,并满足S.count+=1.count;S,。由,中的若干项组成的集合称为项集,包含k个,,S的支持度为项的支持度S中项的支持度之和endfor项的项集称为k一项集,包含项集的事务数称为该项集f.count=f.count—S.count://得到f的独立支持度的出现频度。如果该项集的出现频度大于或等于预先设endif定的最小支持度,则称项集为频繁项。endfor定义2邻近规则:假设厂是频繁项,而且厂包含n.L2={l∈LlIf.count耋minsuppo

8、rt};个词,评论句s包含厂,而且在厂中的词出现在s中的顺,,删除独立支持度小于最小支持度的项序为:l,2,⋯,w。如果在s中1.of和+1(扛1,⋯/7,一1)returnL={l∈kIf.1ength>1);//删除单字的距离不超过两个词,则可以说厂在s中是邻近的。其中,minsuppo~表示给定的最小支持度,k表示给定的定义3独立支持度:频繁项厂的独立支持度是指包频繁项集的最高维

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。