svm在非平衡数据集中的应用

svm在非平衡数据集中的应用

ID:9223421

大小:336.65 KB

页数:4页

时间:2018-04-23

svm在非平衡数据集中的应用_第1页
svm在非平衡数据集中的应用_第2页
svm在非平衡数据集中的应用_第3页
svm在非平衡数据集中的应用_第4页
资源描述:

《svm在非平衡数据集中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第l9卷第6期计算机技术与发展Vo1.I9N().62009年6月CONIIUrl、ERT}【、IINOI.{XYANDljF、EI』}PMEN1June2009SVM在非平衡数据集中的应用黄秀丽,王蔚(南京师范大学教育科学学院,江苏南京210097)摘要:在一个数据集中,至少有一个类别相对与其他类别有很少的样本,则这样数据集可以称为高度倾斜的或者是非平衡的数据集非平衡数据在现实中普遍存在。在非平衡数据分类中.传统机器学习算法的分类表现受到了阻碍。支持向量机(SVM)基于结构风险最小化原则,是近几年发展起来的机器学习方法。分析了SVM在非平衡数据集中的应用情况,同时提出了几

2、种SVM运用于非平衡数据集中的主要改进方法,这些方法对于非平衡数据的分类有很好的分类效果。关键词:非平衡数据;SVM;机器学习中图分类号:rJP181文献标识码:A文章编号:1673—629X(2009)06—0190—04ApplicationofSVMinImbalancesDatasetHUANGXiu—li,WANGWei(SchoolofEducation,NanjingNomlalUniversity.Nanjing210097,China)Abstract:AtrainingdatasetiscalledimbalanceIfatleastoneoftheel

3、&~ses&rerepresentedbysignificantlylessnumber0{instancesthal1theothers.Tileclasimbalanceproblem0ccurswhenthereissignificantlylessnunll~_.rofobservatio1~softhetargetconcept.Variousreal—worldclassificationtaskssufferfromthisphenomenon.Theclassimbalanceproblemhasbeenknowntohinderthelearningper

4、formanceofclasificationalgorithms.Thesupportvectormachinetheo~isbasedontheminimizationprincipletostructurerisk.Supportvectormachineisanalgorithmofmachinelearningthathasdevelopedduringtheseyears.Summarizesthestateoftheapplication0fSVMinim.balancesdata.Thenintroducesomealgorithmsimprovedtoge

5、tgoodperformance.Keywords:imbalancesdata;SVM;machinelearning0引言题,这两届研讨会可以看作是这一问题引起全面关注在一个数据集中,至少有一个类别相对与其他类的标志。别有很少的样本,则这样数据集可以称为高度倾斜的在非平衡数据分类中,传统机器学习算法主要考或者是非平衡的数据集(Imbalancesdataset)。对于一虑的是各类学习样本数量大致平衡的情形,其评价标个标准的两类分类问题,样本较多的类被称为正类,样准主要是基于精度的,得到的数据边界将会严重的向本较少的类别被称为负类。现实生活中,导致非平衡目标类倾斜。结果,

6、负误识(Falsenegative)的比率就特类别的一方面是有意义的数据普遍较少;另外一个原别高。支持向量机(SVM)是Vapnik等人提出的一类因是由于对一些特定类别的样本的搜索限制。实际生新型机器学习方法,以统计学习理论为基础,具有严格的理论和数学基础⋯。不同于神经网络、决策树等传活中的非平衡问题有:识别欺诈信用卡交易,文本分统算法基于经验最小化原则,SVM基于结构风险最小类,蛋白质数据库分类,以及从卫星图像中探测特定的化原则即同时考虑经验风险和置信范围,获得了良好目标。通常,把正类样本误判为负类的损失远大于把的泛化性能。文献[2]对非平衡数据的学习做了一个负类样本误判

7、为正类的损失。AAA1分别在2000年全面而又系统地分析,采用35个来自不同领域的现实和2003年举办两届研讨会,专题讨论非平衡学习问非平衡数据集,对11种学习算法进行了研究。提出目前大多数关于非平衡数据集的研究集中在决策树上,收稿日期:2008—09—28;修回日期:2008—12—12未来的研究可以多考虑SVM,神经网络等的改进方基金项目:全国教行科学“卜五”规划教育部重点基金项F1(DCA法。05O056);江苏省教育科学“十一五”规划项F1(D/2006/01/096)作者简介:黄秀丽(1986一),女,硕

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。