常规挖掘算法在离群数据检测中的应用

常规挖掘算法在离群数据检测中的应用

ID:36854471

大小:373.91 KB

页数:5页

时间:2019-05-16

常规挖掘算法在离群数据检测中的应用_第1页
常规挖掘算法在离群数据检测中的应用_第2页
常规挖掘算法在离群数据检测中的应用_第3页
常规挖掘算法在离群数据检测中的应用_第4页
常规挖掘算法在离群数据检测中的应用_第5页
资源描述:

《常规挖掘算法在离群数据检测中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ComputerEngineeringandApplications计算机工程与应用2008,44(16)145常规挖掘算法在离群数据检测中的应用金义富-。朱庆生zJINYi—ful,ZHUQing—shen921.湛江师范学院信息学院,广东湛江5240482.重庆大学计算机学院,重庆4000441.SchoolofInformation,ZhanjiangNormalUnivemity,Zhanjiang,Guangdong524048,China2.CollegeofComputer,ChongqingUniversity,Chongqing400044,ChinaE-mail

2、:eonstudy@21cn.eomJINYi-fu.ZHUQing-sheng.Applicationofregulardataminingalgorithmsinoutlierdetection.ComputerEngineeringandApplications.2008.44(16):145-147.Abstract:Ingeneral,dataminingismainlydiscoveringforregularpatterns.Itisanimportantpartofdataminingtodetectoufliem鹊thesignificanceofanalyzin

3、gforoutliersisgreatinfraudanalysisandsecurityfields.Thispaperanalyzesandsummarizesroundlytypicalregulardataminingalgorithmsinclustering,classificationandassociationruleshowtodealwitho.ufliers.Outlierdetectionmethodsbasedonunbalancedclassification,steringalgorithmssuchasBIRCH,CURE,Chameleon,DBS

4、CANandsharednearneighbourarediscussedmainly.AnoutlierdetectionalgorithmbasedK-nearneighbourisputforwardinthepaper,anditstestresuhisreported.Keywords:datamining;regularalgorithm;outlierdetection;application摘要:数据挖掘以发现常规模式为主体,但离群数据在欺诈分析及安全领域具有重要分析价值,离群数据检测已成为数据挖掘的重要内容。对聚类与分类以及关联规则分析中典型的常规数据挖掘算法如何

5、处理离群数据进行全面分析与总结,讨论了BIRCH、CURE、Chameleon、DBSCAN以及基于共享最近邻的聚类算法以及基于不平衡分类和基于非频繁模式的离群检测技术,给出了一种利用.K一最近邻算法的离群数据检测方法。并报告了测试结果。关键词:数据挖掘;常规算法;离群检测;应用DOI:10.37780.issn.1002—8331.2008.16.044文章编号:1002—833l(2008)16—0145—03文献标识码:A中图分类号:TP3111引言离群点是那些与众不同的远离常规对象的数据点,离群数据的概念是相对于数据集中的其他大部分正常数据对象而存在的,即可以把全部数据对象

6、分为常规数据和离群数据两大类。离群数据对数据挖掘算法具有意想不到的影响Ⅲ,在数据挖掘的各个阶段及算法中均需要处理与离群数据相关的一些问题。在数据预处理阶段对离群数据进行检测与清理,目的是为了给后续数据挖掘算法提供高质量的数据集;关联规则分析通过挖掘频繁项集进而建立相应规则,相对于频繁项集而言,那些非频繁的项可能与离群数据有关;聚类分析常常可以直接发现离群数据,即不属于任何簇的那些稀疏区域中的数据即是离群数据;分类算法在训练阶段离群数据会严重影响所建立的分类模型精度,而在测试阶段离群数据所属的类将会无法预测,也有基于分类的离群挖掘算法121。本文集中讨论这些常规数据挖掘算法在离群检测

7、中的应用。并给出了一种利用K一最近邻算法发现离群数据的测试结果。2基于聚类的离群检测数据聚类的主要依据是对象问的相似度或差异度,它根据对象间的相似程度把数据集分成若干个簇,使同一簇内的数据对象具有较高的相似程度而不同簇的对象相似程度较低,聚类结果是发现若干个簇,不属于任何簇的数据对象为离群点131。因此,聚类与离群检测密切联系,实际上大多数聚类算法均可以实现离群数据检测【3】,但这些算法主要考虑如何提高聚类效率而没有考虑与离群点相关的问题,离群点只是聚类的附产品。有不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。