机器学习算法总结

机器学习算法总结

ID:14205404

大小:68.79 KB

页数:6页

时间:2018-07-26

机器学习算法总结_第1页
机器学习算法总结_第2页
机器学习算法总结_第3页
机器学习算法总结_第4页
机器学习算法总结_第5页
资源描述:

《机器学习算法总结》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、机器学习算法总结C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,NaiveBayes,andCART1.朴素贝叶斯分类器贝叶斯分类器的分类目前研究较多的贝叶斯分类器主要有四种,分别是:NaiveBayes、TAN、BAN和GBN。朴素贝叶斯分类器是一种应用基于独立假设的贝叶斯定理的简单概率分类器。其原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。更精确的描述这种潜在的概率模型为独立特征模型。简单来说,朴素贝叶斯分类器假设样本每个特征与其他特

2、征都不相关。朴素贝叶斯分类器应用的学习任务中,每个实例可由属性的合取描述,而目标函数从某有限集合V中取值。学习器被提供一系列关于目标函数的训练样例以及新实例(描述为属性值的元组),然后要求预测新实例的目标值(或分类)。贝叶斯方法的新实例分类目标是在给定描述实例的属性值下,得到最可能的目标值。可使用贝叶斯公式重写为朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间相互条件独立。即,在给定实例的目标值情况下,观察到的的概率等于每个单独属性的概率乘积。于是得到朴素贝叶斯分类器使用的方法:概括的说,朴素贝叶斯学习方法需要估计不同的和项,基于他们在训练数据上的频率。这些估

3、计对应了待学习的假设。然后该假设使用上面式子中的规则来分类新实例。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法,换而言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。朴素贝叶斯分类器的一个优势在于只需要根据少量的训练数据估计出必要的参数(变量的均值和方差)。由于变量独立假设,只需要估计各个变量的方法,而不需要确定整个协方差矩阵。朴素贝叶斯分类器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。朴素贝叶斯方法有个致命的缺点就是对数据稀疏问题过于敏感。2.SVMSupportVectorMachine,SVM是一种监督式学习

4、的方法,广泛应用于统计分类以及回归分析中。支持向量机(SVM)是在高维特征空间使用线性函数假设空间的学习系统,它由一个来自最优化理论的学习算法训练,该算法实现了一个由统计学习理论导出的学习偏置。通常希望能够把给定的数据点通过一个维的超平面分开,通常这个被称为线性分类器。有很多分类器(超平面)都符合这个要求,但是我们希望找到分类最佳的平面,即使得属于两个不同类的数据点间隔最大的那个面,该面亦称为最大间隔超平面。如果我们能够找到这个面,那么这个分类器就称为最大间隔分类器。设样本属于两个类,用该样本训练svm得到的最大间隔超平面。在超平面上的样本点也称为支持向量。支持向量机是一

5、种基于分类边界的方法。其基本原理是(以二维数据为例):如果训练数据分布在二维平面上的点,它们按照其分类聚集在不同的区域。基于分类边界的分类算法的目标是,通过训练,找到这些分类之间的边界(直线的――称为线性划分,曲线的――称为非线性划分)。对于多维数据(如N维),可以将它们视为N维空间中的点,而分类边界就是N维空间中的面,称为超面(超面比N维空间少一维)。线性分类器使用超平面类型的边界,非线性分类器使用超曲面。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大

6、化。假定平行超平面间的距离或差距越大,分类器的总误差越小。SVM的关键在于核函数。低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核函数,就可以得到高维空间的分类函数。在SVM理论中,采用不同的核函数将导致不同的SVM算法。在确定了核函数之后,由于确定核函数的已知数据也存在一定的误差,考虑到推广性问题,因此引入了松弛系数以及惩罚系数两个参变量来加以校正。SVM有如下主要几个特点:(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性

7、映射;(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量;(4)SVM是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题;(5)SVM的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。