一种改进的svm增量学习算法研究

一种改进的svm增量学习算法研究

ID:26457106

大小:50.50 KB

页数:5页

时间:2018-11-27

一种改进的svm增量学习算法研究_第1页
一种改进的svm增量学习算法研究_第2页
一种改进的svm增量学习算法研究_第3页
一种改进的svm增量学习算法研究_第4页
一种改进的svm增量学习算法研究_第5页
资源描述:

《一种改进的svm增量学习算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、一种改进的SVM增量学习算法研究摘要:通过对训练样本集的几何特征和机器学习迭代过程中支持向量的变化情况分析,文章提出一种改进的基于KKT条件和壳向量的SVM增量学习算法。算法使用包含原支持向量集的小规模扩展集――壳向量,将其作为新一轮迭代的初始训练样本集。同时,基于样本是否违背KKT6件的错误驱动策略,对新增的大量样本进行筛选,以此得到更加精简有效的新增样本集。实验结果表明,与传统的增量学习算法相比,改进的算法在模型训练的收敛速度和对未知样本集的分类准确度方面都有明显的提高。中国8/vie  关键

2、词:SVM;壳向量;KKT条件;增量学习  1.SVM算法研究背景  随着互联网时代和多媒体信息技术的飞速发展,大量的网络资源也随之产生,其中也包括受众面非常广泛的数字音乐。面对数量庞大和风格多样的数字音乐,一个非常重要的需求是准确而快速地查询出符合用户喜好的音乐。为此,人们需要设计一个高效快速的音乐分类系统。  针对音乐分类,许多研究者已经提出了各自的方法,大体可以分为3类:一是在音乐特征提取的选择和特征向量的维度上作改进;二是在分类算法的选择上作改进;三是在多分类问题的解决方法上作改进。其中,

3、研究最多的是对分类算法的改进。而在这些研究当中,应用最为广泛的技术就是支持向量机(SupportVectorMachine,SVM)。  虽然经典的SVM算法应用广泛,但其依然存在一定的局限性。由于SVM是一种监督式的学习算法,它不具备增量学习的能力,只能使用少量给定的己标注的样本作为训练样本进行训练,以此来得到分类模型。然而,在现实应用中,数字音乐的数据量通常呈现出在线式增长的特点,对这样级别数据量的音乐样本进行类别标注,无论是在人力上还是在时间成本上,都是不现实的。因此寻找更高效率的svM增量

4、学习算法,筛选可以涵盖大量未标注样本所含信息量的代表性样本进行标注来改善分类模型的训练速度和分类精度,具有十分重要的意义。  从提高增量学习训练速度的角度出发,sved等基于SVM提出一种简单增量学习算法,该算法使用能够代表初始样本集但数量较小的支持向量进行训练。然而,该算法完全忽略了非支持向量,而有些非支持向量可能携带着由于训练前期样本不够丰富而没有显性表现出来的重要分类信息。申晓勇等通过分析训练样本的特点,结合KKT条件,提出一种计数器淘汰算法,有效地去除了少量无用样本,但该算法在增量学习的过

5、程中需要对所有的历史训练样本进行学习,这将在很大程度上增加存储空间成本,同时也会使得增量学习的速度减慢。文献使用训练样本到类样本中心点的距离和该样本到分类决策平面的距离的比值,无异于改善分类模型性能的样本剔除,但算法存在一定的主观性,分类模型的稳定性无法得到保证。  研究发现,不同类别的训练样本在空间中呈现聚类分布,并且类样本集的边缘样本相比支持向量,包含更多的分类信息,这类样本被称之为壳向量。文献基于样本的几何分布特点,使用训练样本集中的壳向量和类与类之间边界上的壳向量作为初始训练样本集参与训练

6、。文献提出一种基于壳向量的增量式快速增量学习算法,该算法使得求解二次优化问题的计算量大大减少,提高了增量学习的收敛速度。但利用该算法只适用于线性空间中的两分类问题,不适合在现实中推广使用。  本文算法在总结分析前人学习算法的基础上,提出一�N改进的SVM增量学习算法,将KKT条件和壳向量相结合,分别从新增样本集和初始训练样本集的角度,降低学习过程中的存储空间占有量,提高用于模型训练的样本集的丰富性和可靠性,从而改善分类模型的收敛速度和分类性能。  2.SVM相关理论  SVM是在严谨的统计学习理论

7、的基础上发展起来的一种用于解决分类问题的机器学习算法,该算法将结构风险最小化原则和统计学习当中的VC维理论相结合,采用核函数映射的方式实现非线性的SVM,通过寻找使得分类间隔最大化的最优超平面,实现对不同类别样本的分类,在解决小样本、非线性以及高维模式识别等问题中效果显著。相比传统的分类学习方法有着更好的学习性能和泛化能力,被广泛应用于文本分类、目标识别和时间序列预测等领域U5471。  对于线性二分类问题,假设给定类别标签的训练样本集为(X1,y1),(x2,y2),…(xn,yn),xi∈Rd

8、,yi∈{+1,-1}。其中,n为训练样本集的总数,d样本特征的维度,y样本的类别标号。寻找最优超平面可以归纳为求解平面f(x)=argin最大化。  定理2若新增样本中存在某些违反KKT条件的样本,则这些违反KKT条件的样本中肯定存在新的支持向量;若新增样本中不存在违反KKT条件的样本,则新增样本中肯定不存在新的支持向量。  定理3若新增样本中存在违反KKT条件的样本,则上次训练结果中的非支持向量有可能转化为支持向量。  根据上述定理可知,yif(xi)<1是新增样本(xi,yi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。