基于异常数据挖掘算法的研究

基于异常数据挖掘算法的研究

ID:35064681

大小:4.95 MB

页数:50页

时间:2019-03-17

基于异常数据挖掘算法的研究_第1页
基于异常数据挖掘算法的研究_第2页
基于异常数据挖掘算法的研究_第3页
基于异常数据挖掘算法的研究_第4页
基于异常数据挖掘算法的研究_第5页
资源描述:

《基于异常数据挖掘算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中图分类号391讼文编号iGMfl_TP160320学科分类号當驳.520.6099.*义相乂净TIANJINUNITY0LIVERS…州NOOGY硕±专业学位论文■I■I"I-"■■I-■■基于异常数据挖掘算法的硏究ResearchandOutlierMininAlorithmgg网1脚Bi^Bxmm±H网iMEatlifl计算机技术I■压黑王传玉UE^^Wm刘震教授HHS^VCJMMEflUBB--IHUiM^..;I:-':學非吉':戀天津理工大学研究生

2、院二〇—六年云月分类号:TP391520.6099密级:天津理工大学研究生学位论文基于异常数据挖掘算法的研究(申请硕士学位)学科专业:计算机技术研究方向:数据挖掘作者姓名:王传玉指导教师:刘震教授2016年3月ThesisSubmittedtoTianjinUniversityofTechnologyfortheMaster’sDegreeResearchonOutlierMiningAlgorithmByChuanyuWangSupervisorZhenLiuMarch2016棘准I牲京巧本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文

3、中特别加W标注和致谢之处外,论文中不包含其他人己经发表或撰写过的研巧成果,也不包含为获得义津理工大学或其他教育机构的学位或证书而使用过的材料一同工作的同志对本研。与我究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学化冷文作者签名签拿日期;2^t手月:日^/学隹4^^文化权徒用援权书本学位论文作者完全了解文津理工大学有关保留、使用学位论文的规定。特授权义津理工大学可将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编,W供查阅和借阅。同意学校向国家有关部口或机构送交论文的复本和电子文件。(保密的

4、学位论文在解密后适用本授权说明)、学化冷丈作者签《导种签名;签李曰期:衣月签学可期;年月可ft年3^^摘要异常数据是指在数据集中与普通数据对象不一致或者偏离正常行为模式的数据。它们产生于不同的机制,不符合一般的规律,背后往往隐藏着容易忽略的重要信息,因此各种异常数据挖掘算法的研究已经成为热门的研究方向。但是目前大多数的异常数据挖掘研究都是基于静态的数据集进行的,主要通过基于密度的LOF算法进行计算得到,在实际应用中,面对要研究的数据集都是不断变化的,本文中所做的主要工作就是针对动态增加的数据集来进行异常数据挖掘工作的研究。聚类算法OPTICS是一种经典的基于密度的

5、聚类方法。OPTICS算法不同于其他基于密度的聚类算法是因为它不会把要输入的ε和MinPits两个参数当作全局的参数来进行密度衡量然后识别类,而是通过建立一个增广的可达图来描述数据集在基于密度的数据结构样子。在构造可达图时,数据对象总是朝着数据分布密度高的区域扩张,最终形成一个可视化序列。在对邻域内数据进行扩张时,每一次邻域查询都要扫描整个数据表,本文中引入邻接表来存储邻域点,这样在找到核心对象后只要遍历一次邻域就可以创建出邻接表方便后面的查询。同时加上一个NM指针始终指向种子队列里可达距离最小的点,对可达队列的更新策略进行优化。在动态增加的数据库环境下,基于LOF算法的改进型IncL

6、OF算法在异常数据挖掘中克服了二次挖掘时要重新计算数据集所有数据对象的局部离群因子的高时间复杂度问题,取得良好效果。当向数据库中同时添加多个数据对象时,受影响数据对象的增多,其算法的时间效率下降很快。本文提出一种新的异常数据挖掘算法,先用改进后的OPTICS算法对原始数据集和新增的数据集进行聚类处理,然后调用IncLOF算法对异常簇中数据对象计算局部离群因子即可。通过实验结果表明,与传统的IncLOF算法相比,本文提出的算法在动态增加的数据库实验环境下,不仅算法时间效率得到提高,在异常数据挖掘的精度方面也有一定的优化。关键词:异常数据挖掘聚类局部离群因子OPTICS算法IncLOF算法

7、AbstractOutliersrefertotheseobjectsthatdonotaccordwiththegeneralruleofthenormaldataordeviatefromthenormaldata.Thesignificantinformationhiddenbehindoutliersiseasilyoverlooked,soallkindsofoutliermininghavebecomeahotresearch.Ho

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。