Svm基本知识与原理.ppt

Svm基本知识与原理.ppt

ID:52063429

大小:312.50 KB

页数:22页

时间:2020-03-31

Svm基本知识与原理.ppt_第1页
Svm基本知识与原理.ppt_第2页
Svm基本知识与原理.ppt_第3页
Svm基本知识与原理.ppt_第4页
Svm基本知识与原理.ppt_第5页
资源描述:

《Svm基本知识与原理.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Svm基本知识与原理张立新SVM入门(一)SVM的八股简介支持向量机(SupportVectorMachine)是Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。所谓VC维是对函数类的一种度量,可以简单的理解为问题的

2、复杂程度,VC维越高,一个问题就越复杂。结构风险最小听上去文绉绉,其实说的也无非是下面这回事。机器学习本质上就是一种对问题真实模型的逼近,但毫无疑问,真实模型一定是不知道的。那么我们选择的假设与问题真实解之间究竟有多大差距,我们就没法得知。这个与问题真实解之间的误差,就叫做风险。我们选择了一个假设后,真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。以前的机器学习方

3、法都把经验风险最小化作为努力的目标,但后来发现很多分类函数能够在样本集上轻易达到100%的正确率,在真实分类时却一塌糊涂(即所谓的推广能力差,或泛化能力差)。此时的情况便是选择了一个足够复杂的分类函数,能够精确的记住每一个样本,但对样本之外的数据一律分类错误。统计学习引入了泛化误差界的概念,就是指真实风险应该由两部分内容刻画,一是经验风险,代表了分类器在给定样本上的误差;二是置信风险,代表了我们在多大程度上可以信任分类器在未知样本上分类的结果。很显然,第二部分是没有办法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能

4、计算上界,而无法计算准确的值。置信风险与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。R(w)≤Remp(w)+Ф(h/n)统计学习的目标从经验风险最小化变为了寻求经验风险与置信风险的和最小,即结构风险最小。SVM入门(二)线性分类器Part1C1和C2是要区分的两个类别,中间的直线就是一个分类函数,它可以将两类样本完全分开。一般的,如果一个线性函数能够将样本完全正确的分开,就称这些数据是线性可分的,否则称为非

5、线性可分的。什么叫线性函数呢?在一维空间里就是一个点,在二维空间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函数还有一个统一的名称——超平面(HyperPlane)!实际上,一个线性函数是一个实值函数,而我们的分类问题需要离散的输出值,这时候只需要简单的在实值函数的基础上附加一个阈值即可,通过分类函数执行时得到的值大于还是小于这个阈值来确定类别归属。例如我们有一个线性函数g(x)=wx+b我们可以取阈值为0,这样当有一个样本xi需要判别的时候,我们就看g(xi)的值。若g(xi)>0

6、,就判别为类别C1,若g(xi)<0,则判别为类别C2。此时也等价于给函数g(x)附加一个符号函数sgn(),即f(x)=sgn[g(x)]是我们真正的判别函数。关于g(x)=wx+b这个表达式要注意三点:一,式中的x不是二维坐标系中的横轴,而是样本的向量表示。二,这个形式并不局限于二维的情况,在n维空间中仍然可以使用这个表达式,只是式中的w成为了n维向量;三,g(x)不是中间那条直线的表达式,中间那条直线的表达式是g(x)=0,即wx+b=0,我们也把这个函数叫做分类面。实际上很容易看出来,中间那条分界线并不是唯一的,我们把

7、它稍微旋转一下,只要不把两类数据分错,仍然可以达到上面说的效果,稍微平移一下,也可以。SVM入门(三)线性分类器Part2对于样本分类的不适定问题,需要有一个指标来衡量解决方案的好坏,而分类间隔是一个比较好的指标。我们定义一个样本点到超平面的间隔:δi=yi(wxi+b)。现在把w和b进行归一化,即用w/

8、

9、w

10、

11、和b/

12、

13、w

14、

15、分别代替原来的w和b,那么间隔就可以写成这个公式是不是看上去有点眼熟?没错,这不就是解析几何中点xi到直线g(x)=0的距离公式嘛!(推广一下,是到超平面g(x)=0的距离)。

16、

17、w

18、

19、叫做向量w的范

20、数,范数是对向量长度的一种度量。当用归一化的w和b代替原值之后的间隔有一个专门的名称,叫做几何间隔,几何间隔所表示的正是点到超平面的欧氏距离,同样可以定义一个点的集合(就是一组样本)到某个超平面的距离为此集合中离超平面最近的点的距离。下面这张图更加直观的展示出了几何间隔的现实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。