大规模数据集下支持向量机训练样本的缩减策略

大规模数据集下支持向量机训练样本的缩减策略

ID:38278814

大小:321.51 KB

页数:3页

时间:2019-05-29

大规模数据集下支持向量机训练样本的缩减策略_第1页
大规模数据集下支持向量机训练样本的缩减策略_第2页
大规模数据集下支持向量机训练样本的缩减策略_第3页
资源描述:

《大规模数据集下支持向量机训练样本的缩减策略》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机科学大规模数据集下支持向量机训练样本的缩减策略’‘,‘罗瑜易文德王丹珠何大可西‘’南交通大学信息科学与技术学院成都重庆文理学院数学与计算机科学系永川四川省信息安全测评中心成都摘要大贵数据下支持向童机的训练算法是研究的一个重要方向和焦点。该丈从分析训练问题的实,,,。质和难点出发提出一种在训练前先求出类别质心去除非支持向全对应的样本从而达到缩小样本集的方法该方,。法在不损失分类正确率的情况下具有更快的收数速度并从空间几何上解释了支持向黄机的原理仿真实脸证明了该方法的可行性和有效性。,分解算法,类,关健词支持向童机别质心准支持向黄即罗加飞十灰,〕介扩,介众冶

2、反,雌,刘’冶氏,明吃,昭压段反飞,加拍’眼即们田名亡卿即佃坛训协因州旧幻瓦材记理山,铭因朋,耐以刘钾详面诫田落业七司拢改讥加、吧而服,山犯,业以妇比面腼挂记阁呱欣妇冲汀稗以书。而习笼卿址吐优,吮因,,,一支持向盆机,基于的基本思想是对于非线性可分样本引言,年核展开定理将其输人样本通过非线性变换·’〕一小样映射到另一个,等人提出的统计学习理论是一种针对高维空间空间中在变换后的空间,中构造,本的学习理论它避免了人工神经网络等方法的网络结构难一个最优的分类超平面图使其在保证分类精以确定、过学习和欠学习,度满足经验风险的同时最大化超平面两侧的空白区域即以及局部极小等

3、问题被认为是目前、。,也,针对小样本的分类回归等问题的最佳理论最大化置信范围即是与从间的几何间隔图这使得分类的结果,而且在整个样不但在训练集上得到优化本集,这就是的结构风险最小化思上的风险也有上界。,,想鉴于篇幅的原因本文只针对两类问题进行探讨但本文的结论同样适用于多类问题。支持向机理论甚础对于两类问题,给定样本集,‘‘任尸,士,,,,,。⋯和核函数毛对应特征空间,,·。空间的内积禹为巾二中设计基于的分类器,就是在中寻找最优超平,即最大化两类的面几何,间隔对于样本集线性可分和不可分都可用下式来表·图分类超平面达‘幻,,地铁。罗劝博士生,。基金项目上海市特种光纤

4、重点实验室科研项目无线接人安全认证算法研究研究方向为并行计算及模式识别‘八口皿曾黄麟粗集理论及其发展〕重庆重庆大学出版社,王希雷,王磊粗集中区分矩阵对不一致问题处理的研究【〕徽,曾黄麟智能计算〔」重庆重庆大学出版社机发展,,一,,郑书富管延勇史开泉分辨矩阵与它在非一致决策中的应用汪廷华,程从从集中基于分明矩阵的决策规则约简研究,〕山东大学学报〕计算机科学,一,一呢,,黄兵周献中不完备信息系统分配约简与规则提取的矩阵算法〕,,一计算机工程,,叶东毅,个新,管延勇薛佩军王洪凯不完备信息系统的可信决策规则提取陈昭炯的差别矩阵及其求核方法〔月电子学报一一,,,与相对约

5、简〔〕系统工程理论与实践一。,一。非支持向盈数远远大于支持向量数因此如果能够先验而切怡冬一‘睿,一‘必地去除部分非支持向量将会大大提高支持向量机的训练速民‘切中‘一乐,,⋯,,。度同时提高训练的收敛速度,,⋯,,吞一阔,一惩罚参,。其中权重向值数一松弛变量上式又称为标准线性间题的中,泊由于特征空间的维数很大甚,巾是未知的,一般方法并至是无穷的并且不能直接求解,而是通过求解此问题的对偶问题上式。一犷场一粤口‘氏七《镇、一。是,是矩阵,来解决其中肠乘子笋,禹,,是半,正定矩阵这是凸二次规划问题其最二和,一〕,优解满足条件闭求出解‘后可直接计算并构造决策函数·刃,,

6、·二一,‘。,,息引人力学中刚体的概念在维空间中设正负样本分,并布分别分布在一个半径为犷和犷的超球范围内且其分,则,布为独立同分布的正负样本集分别表现为两个刚体其类彻练算法十。,别质心分别记为和对于线性问题正样本集质心,,,,就是求解。为一,是正样本个数负样本集质心为、一支持向机的训练过程最优化问题的过程汁兰分支,持向机具有一些很好的特性从图可看出由于支持向仅,因此其解具有稀疏性另外,,。,十是样本集中的很小一部分名二对于非线性问题正样本集质心为云一,支持向机是一个凸二次规划问题这就保证解的存在和唯,,。,负样本集质心为、一,二一性。虽然在理论上有许多求解二次

7、规划的方法比如内点汁兰分暮、,,法既约梯度法等但是支持向女机中二次规划的变量维数推论,假如两件类样本集是可分的则最优分类超平,等于训练样本的个数从而使矩阵元素的个数是,也即面位于两类质心之间图两类质心居于最优超平面产,,这就造成实,,更关健的是不是稀疏的际问题的求解规模两侧并且各类的支持向量分布于类别质心和最优超平面之,。过大而使许多传统方法不适用间。近年来,学者相继开发出了很多快速训练算法,例,从类别聚类的观点来看类别刚体的质心可以视为类别,,如的块算法的分解算法的聚类中,心假设两类质心都在最优分类超平面的一侧则的,的序贯最小优化,,切砂妙算法从样本分布来看

8、只有正负样本集区域重盈过多时才会发生。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。