基于不确定数据的高平均效用序列模式挖掘算法的研究

基于不确定数据的高平均效用序列模式挖掘算法的研究

ID:34711380

大小:4.65 MB

页数:75页

时间:2019-03-09

基于不确定数据的高平均效用序列模式挖掘算法的研究_第1页
基于不确定数据的高平均效用序列模式挖掘算法的研究_第2页
基于不确定数据的高平均效用序列模式挖掘算法的研究_第3页
基于不确定数据的高平均效用序列模式挖掘算法的研究_第4页
基于不确定数据的高平均效用序列模式挖掘算法的研究_第5页
资源描述:

《基于不确定数据的高平均效用序列模式挖掘算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工程硕士学位论文基于不确定数据的高平均效用序列模式挖掘算法的研究MININGHIGHAVERAGEUTILITYSEQUENTIALPATTERNSFROMUNCERTAINDATABASES李霆哈尔滨工业大学2016年12月万方数据国内图书分类号:TP301.6学校代码:10213国际图书分类号:004.62密级:公开工程硕士学位论文基于不确定数据的高平均效用序列模式挖掘算法的研究硕士研究生:李霆导师:林浚玮助理教授申请学位:工程硕士学科:计算机技术所在单位:深圳研究生院答辩日期:2016年12月授予学位单位:哈尔滨工业大学万方数据ClassifiedIndex:TP301.6U.D.

2、C:004.62DissertationfortheMaster’sDegreeofEngineeringMININGHIGHAVERAGEUTILITYSEQUENTIALPATTERNSFROMUNCERTAINDATABASESCandidate:LiTingSupervisor:AssistantProf.Chun-WeiLinAcademicDegreeAppliedfor:Master’sDegreeofEngineeringSpeciality:ComputerTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence

3、:December,2016Degree-Conferring-Institution:HarbinInstituteofTechnology万方数据哈尔滨工业大学工程硕士学位论文摘要近年来,数据挖掘可以为决策提供关键信息,已经成为大数据时代一个重要的研究方向。高效用序列模式挖掘(highutilitysequentialpatternsmining,HUSPM)考虑时间戳、内部量化、外部效用因子来挖掘高效用序列(highutilitysequentialpattern,HUSP),已经成为近十年热点研究课题。然而,通常情况下序列的效用值会随着序列长度(项目数)的增加而增大,HUSPM却

4、没有考虑序列长度对序列效用值的影响。在高平均效用项集挖掘(highaverage-utilityitemsetsmining,HAUIM)领域,学者们用平均效用值来衡量项集的重要、有用程度,可以解决项集长度对项集效用值的影响,同样本文使用平均效用值来解决序列长度对序列效用值的影响。另外,在实际生活中由于环境因素,设备限制,隐私问题等收集到的数据可能是不确定的,目前HUSPM的研究主要针对的是精确数据,在不确定数据挖掘领域还没有相关研究。本文首先提出高平均效用模式挖掘算法HAUI-Miner,设计了平均效用列表(average-utilitylist,AU-list)结构来保存来挖掘高平均

5、效用项集所需要的信息。HAUI-Miner使用深度优先搜索技术不需要重复扫描数据库,相比于前人算法在性能上有较大的提升。随后本文提出了潜在高效用序列模式挖掘(potentialhighutilitysequentialpatternsmining,PHUSPM)算法框架,基于这个框架提出了两个算法,一个是基于效用高估的PHUSPM-UP算法,本文设计的剪枝策略可以有效减少搜索空间提升算法性能;另一个是基于投影数据库技术的pre-PHUSPM算法,pre-PHUSPM算法迭代生成投影数据库,随着数据库规模的减小潜在高效用序列的挖掘速度越来越快。PHUSPM依然受困于序列长度对序列效用值的影

6、响,结合HAUIM和PHUSPM的研究要点,本文提出了基于不确定数据的高平均效用序列模式挖掘算法框架,一同提出的还有两个算法MUHAUSP和PrefixMUHAUSP。本文做了大量实验来验证所提算法的性能,对所提算法的正确性和完整性进行了证明。总结如下,本文探讨了效用值,模式长度和数据不确定性对模式挖掘的影响,提出了相关理论,设计了一系列算法,扩展了该领域的研究范围。关键字:数据挖掘;高平均效用;序列模式;不确定数据;投影数据库-I-万方数据哈尔滨工业大学工程硕士学位论文AbstractInrecentyears,dataminingisacriticalissueespeciallyi

7、nbigdataerasinceitcanprovidetheimplicitinformationfordecision-making.Highutilitysequentialpatternmining(HUSPM)considersbothtimestamp,internalandexternalutilityfactorstominethehigh-utilitysequentialpatterns(HUSPs),which

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。