基于聚类融合的不平衡数据分类方法-论文.pdf

基于聚类融合的不平衡数据分类方法-论文.pdf

ID:57924289

大小:295.65 KB

页数:5页

时间:2020-04-14

基于聚类融合的不平衡数据分类方法-论文.pdf_第1页
基于聚类融合的不平衡数据分类方法-论文.pdf_第2页
基于聚类融合的不平衡数据分类方法-论文.pdf_第3页
基于聚类融合的不平衡数据分类方法-论文.pdf_第4页
基于聚类融合的不平衡数据分类方法-论文.pdf_第5页
资源描述:

《基于聚类融合的不平衡数据分类方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第31卷哈尔滨师范大学自然科学学报Vo1.31,No.12015第1期NATURALSCIENCESJOURNALOFHARBINNORMALUNIVERSITY基于聚类融合的不平衡数据分类方法禄铠铣(澳门大学)【摘要】列举了有关基于聚类融合的不平衡数据分类的办法,可以解决少数类的识别率很低,利用传统分类手段予以解决.利用此种方法能够发现,引入少数类边界区域与在多数类核心当中的样本聚类一致性系数,并且分别对欠抽样方法对少数类与多数类的训练集.【关键词】聚类融合;不平衡数据;数据分析中图分类号:TP274文献标识码:A

2、文章编号:1000—5617(2015)01—0081—04主要在两个方面进行探究:(1)怎样生成有0引言效果的聚类成员;(2)怎么对共识函数进行设不平衡数据集的特征就是在数据集里有一计,让聚类成员能够合并到一起.具体就是聚类种样本的数量大大小于其他的样本数量.对于不成员之间的区别,究竟对聚类融合结果有何影平衡数据级来说,使用比较传统的分类手段对其响,是否会影响聚类融合的稳定.聚类融合重点:进行分类的话,其结果会十分的倾向多数类,一如果有包括n个对象的数据集X={,般来说,人们极为重视少数类,如果少数类被错:,⋯,}

3、,使用h次聚类的算法让数据集能分,那么付出的代价十分的大,假如将入侵数据够得到h个结果,H={C,C2,⋯,c},当中c看作是正常数据来对待,有极大几率会导致不必(k=1,2,⋯,)为了可以得出聚类结果重点在要的损失.于对第次算法.将h个聚类成员的不同的聚类在数据挖掘与模式识别等等行业越来越喜结果加在一起,然后利用比较专业的共识函数,欢用聚类算法了.如今聚类算法有很多种,可是,得出有关结果.几乎所有的聚类算法都有明显的缺陷.因此,该相比于单一算法,聚类融合算法可以得到更文使用聚类融合技术,用来让算法更加稳定.好地结果

4、.(1)鲁棒性:不论是何种领域与数据集,这1基于聚类融合的不平衡数据分类种方法的平均性能无疑是最强的.方法(2)适用性:聚类结果是一般是单一聚类方1.1聚类融合法不能比拟的.最近几年内,融合方法大量应用在分类和回(3)稳定性与确定性评价:聚类结果有一定归中,而且已经进入到了聚类行业中.FredAL的不确定性,可以从融合布局方面来进行评估噪参考传感器融合与分类器融合的成功经验,发现声、孤立点与抽样,这对于聚类结果来说,没有多了新的方法.它的详细定义就是:把一组数据进大的影响.行聚类的不一样的结果相互融合,而不会使用该(

5、4)并行与可扩展性:可以让数据子集并行数据原来的自身特点.合并或者是并行聚类,还可以合并分布式的数据收稿日期:2014—09—0582哈尔滨师范大学自然科学学报2015年第3l卷源聚类结果或者是数据属性的聚类结果.衰1混合矩阵1.2不平衡数据分类方法机器学习行业的重点探究对象就是分类问题,部分分类方法都日渐成熟,用这些分类方法来对平衡数据进行分类,肯定可以有不错的效从上可以得知分类器在数据集的整体分类果.但是,很多行业里还是有很多不均衡数据及方面的作用,可是不会发拧出不平衡数据集的分存在的.以往传统分类方法似乎偏向于

6、对多数类类作用.因此,在不平衡数据方面,必须要制定更有比较高的识别率,少数类识别率则相对比较为科学的评判标准,经常使用的标准包括:查全低.所以,对不均衡数据集有关分类问题的探究,率recall、F—value值、查准率precision、G—mean必须要找到一些新的手段与辨别准则.值、AUC.属于少数类recall、precision、G—mean、不平衡数据的分类大致可以分为两种:以数F—value值的计算手段如下:据层面作为基础与将算法层面作为基础的方法.Recall=TP/(TP+FN);(1)1.2.1数据

7、层面的处理方法Precision=TP/(TP+FP);(2)数据层面的处理方法就是将数据进行重抽F—value={(1+8)×Recall×Preci-样,包括两种处理办法,分别是过抽样和欠抽样.sion}/(B×Recall+Precision);(3)一致子集(consistentsubset).G—mean={TP/(TP+FN)TN/(TN+编辑技术(常用的是Wilson.Sediting)FP)}的平方根.(4)以及单边选择(one—sidedselection)F—value可以说是不平衡数据集学习里比

8、等~.较有效地评判标准,它将Recall与Precision相互以上技术最重要的是启发性的使用(加权)组合,当中B是可调参数,一般取值为1.只有在欧氏距离和K一近邻规则去辨别能够科学删除Recall与Precision的值比较大的时候,F—value的样本.Barandela等人_3和Batista等人_4都对才会更大,所以它可以准确的反映出少

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。