统计机器学习.ppt

统计机器学习.ppt

ID:62094029

大小:216.00 KB

页数:36页

时间:2021-04-15

统计机器学习.ppt_第1页
统计机器学习.ppt_第2页
统计机器学习.ppt_第3页
统计机器学习.ppt_第4页
统计机器学习.ppt_第5页
资源描述:

《统计机器学习.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、统计机器学习王珏第11届中国机器学习会议大连,2008,8中国科学院自动化研究所机器学习与人工智能机器学习来源于人工智能。著作:机器学习(MachineLearning)TomMichell描述:如果一个系统能够通过执行某种过程而改进它的性能,这就是学习。HerbertSimon中国科学院自动化研究所机器学习Vapnik在“机器学习”术语之前加了“统计”二字,变为“统计机器学习”。由此从Rosenblatt的感知机到人工神经网络划入了这个领域。Duda&Hart的模式分类(统计模式识别)划入这个领域。统计学的算法文化划入了这个领域。Quilan的决策树方法和Valiant的PAC划入

2、这个领域。“统计”中国科学院自动化研究所人工智能与统计机器学习早期,不喜欢。M.Minsky的批评,感知机停滞。Duda&Hart的统计模式识别,统计机器学习与其一致。人工神经网络反对AI。统计机器学习使用的AI成果:Valiant的PAC:这是当前统计机器学习的基础之一。Quilan的决策树:这是统计机器学习最重要的算法之一。统计机器学习已成为人工智能最主要的研究课题。Vapnik在“泛化”旗帜下,批判了这种排他性。中国科学院自动化研究所统计机器学习统计机器学习的理论框架有限样本理论统计建模的两种文化近期的研究课题中国科学院自动化研究所Duda&Hart1973年,他们出版了至今有

3、重要影响“Patternclassificationandsceneanalysis”,2001年,在此基础上,删除了情境分析的内容,大量增加了统计建模的内容。尽管2001年版的内容大大丰富了,无论在理论研究结果,方法的罗列,还是参考文献的收集,都可以称为一本研究者必备的手册,但是,其理论框架的识别也比1973版困难。中国科学院自动化研究所统计机器学习的统计框架Duda&Hart的模式分类理论框架=统计机器学习理论框架Bayes决策论后验概率:P(jx)=P(i)p(xji)。样本数趋于无穷大。判决规则:对所有j,最大P(jx)就是x的类别。目标:风险R(ix)=

4、(ij)P(ix)最小。是损失函数。函数g(x)=w0+wtx,如果wtx>-w0,x属于1。问题变为在确定的损失函数(准则函数或目标函数)意义的优化问题。线性感知机就是如此。损失函数是平方损失。令gj(x)=P(jx),g(x)=gj(x)-gi(x)。判别为计算g(x)的参数。中国科学院自动化研究所发展的线索样本数量:趋于无穷大。有限样本理论,泛化误差1-概率成立。线性判别,感知机:线性不可分,M.Minsky的批评。非线性算法BP,孤立事件,问题没有解决。线性空间。损失函数:根据问题定义损失函数。精心设计实验获得数据(手写字符识别)的理论:高维涌现的

5、数据(网络、生物、金融)。包含多个有意义解答。从数据建立模型:经验知识和经验模型的考虑。中国科学院自动化研究所统计机器学习统计机器学习的理论框架有限样本理论统计建模的两种文化近期的研究课题中国科学院自动化研究所Valiant&Vapnik1984年,Valiant建议,算法多项式复杂性是统计建模的条件,为此,不惜牺牲精度,PAC(ProbableApproximatlyCorrect)。传统统计学家难以接受。假设自然模型y=F(x),S={x,y}n是对y=F(x)的n次观察的样本集合,通过复杂性为多项式的算法A,获得模型y=f(x)。考虑所有从y=F(x)可能观测的样本(iid),

6、对任意正整数>0,0<1,F(x)-f(x)成立的概率大于1-。Vapnik基于PAC,首先在iid条件下,推出了有限样本建模的泛化界,从此,开创了至今还有重要意义的以margin界为基础的统计机器学习的研究。中国科学院自动化研究所Vapnik的贡献(1)---有限样本理论Vapnik有限样本理论:考虑两个因素,其一,有限样本,其二,算法的计算复杂性是多项式。由此,接受PAC并推出泛化界。结构风险等。中国科学院自动化研究所Vapnik的贡献(2)---线性算法BP算法:非线性形式y=f1(1f2(2x)),算法漂亮,科学上:孤立事件。在科学哲学上:“对某个问题已经

7、认识,是找到一个空间,这个问题可以在这个空间上线性表述”,这个在二十世纪三十年代VonNeurmman在研究量子力学数学基础时暗示的思想。其数学方法,就是Hilbert空间。Vapnik提出核映射,将样本集合映射到线性内积的Hilbert空间,样本集合成为线性可分,直接使用感知机。没有免费的午餐!如果将空间的各维度定义在实数域上,可以线性划分这个问题的维数减低,最小的维数是什么?如果事先确定维数,代价可能就是精度。n-XOR问题:将问题映射到多项式基张成的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。