机器学习复习总结

机器学习复习总结

ID:47481312

大小:158.51 KB

页数:7页

时间:2020-01-11

机器学习复习总结_第1页
机器学习复习总结_第2页
机器学习复习总结_第3页
机器学习复习总结_第4页
机器学习复习总结_第5页
资源描述:

《机器学习复习总结》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一章基本设计方法和学习途径选择训练经验选择目标函数选择目标函数的表示选择函数逼近算法最终设计选择训练经验第一个关键属性,训练经验能否为系统的决策提供直接或间接的反馈第二个重要属性,学习器在多大程度上控制样例序列第三个重要属性,训练样例的分布能多好地表示实例分布,通过样例来衡量最终系统的性能最终设计执行系统用学会的目标函数来解决给定的任务鉴定器以对弈的路线或历史记录作为输入,输出目标函数的一系列训练样例。泛化器以训练样例为输入,产生一个输出假设,作为它对目标函数的估计。实验生成器以当前的假设作为输入,输出一个新的问题,

2、供执行系统去探索。第二章一致,满足,覆盖的定义:一致:一个假设h与训练样例集合D一致,当且仅当对D中每一个样例都有h(x)=c(x),即Consistent(h,D)Û("ÎD)h(x)=c(x)一个样例x在h(x)=1时称为满足假设h,无论x是目标概念的正例还是反例。当一假设能正确划分一个正例时,称该假设覆盖该正例。变型空间(versionspace):与训练样例一致的所有假设组成的集合,表示了目标概念的所有合理的变型,VSH,D={hÎH

3、Consistent(h,D)}第三章决策树

4、适用问题的特征:实例由“属性-值”对(pair)表示目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例ID3算法特点:n搜索完整的假设空间(也就是说,决策树空间能够表示定义在离散实例上的任何离散值函数)n从根向下推断决策树,为每个要加入树的新决策分支贪婪地选择最佳的属性。n归纳偏置,优先选择较小的树观察ID3的搜索空间和搜索策略,认识到这个算法的优势和不足假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间维护单一的当前假设(不同于第二章的变型空间候选消除

5、算法)不进行回溯,可能收敛到局部最优每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强ID3和候选消除算法的比较ID3的搜索范围是一个完整的假设空间,但不彻底地搜索这个空间候选消除算法的搜索范围是不完整的假设空间,但彻底地搜索这个空间ID3的归纳偏置完全是搜索策略排序假设的结果,来自搜索策略候选消除算法完全是假设表示的表达能力的结果,来自对搜索空间的定义过度拟合:对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在实例的整个分布上表现得却更好时,我们说这个假设过度拟合训练样例定义:给

6、定一个假设空间H,一个假设hÎH,如果存在其他的假设h’ÎH,使得在训练样例上h的错误率比h’小,但在整个实例分布上h’的错误率比h小,那么就说假设h过度拟合训练数据导致过度拟合的原因1.一种可能原因是训练样例含有随机错误或噪声2.特别是当少量的样例被关联到叶子节点时,很可能出现巧合的规律性,使得一些属性恰巧可以很好地分割样例,但却与实际的目标函数并无关系避免过度拟合的方法特点及早停止树增长精确地估计何时停止树增长后修剪法被证明在实践中更成功避免过度拟合的关键:使用什么样的准则来确定最终正确树的规模,解决这个问题的方法

7、有:训练和验证集法可用数据分成两个样例集合:训练集合,形成学习到的假设验证集合,评估这个假设在后续数据上的精度方法的动机:即使学习器可能会被训练集合误导,但验证集合不大可能表现出同样的随机波动验证集合应该足够大,以便它本身可提供具有统计意义的实例样本常见的做法是,样例的三分之二作训练集合,三分之一作验证集合错误率降低修剪(reduced-errorpruning)n将树上的每一个节点作为修剪的候选对象n修剪步骤n删除以此节点为根的子树,使它成为叶结点n把和该节点关联的训练样例的最常见分类赋给它n反复修剪节点,每次总是选

8、取那些删除后可以最大提高决策树在验证集合上的精度的节点n继续修剪,直到进一步的修剪是有害的为止n数据集分成3个子集n训练样例,形成决策树n验证样例,修剪决策树n测试样例,精度的无偏估计n如果有大量的数据可供使用,那么使用分离的数据集合来引导修剪规则后修剪(rulepost-pruning)n步骤n从训练集合推导出决策树,增长决策树直到尽可能好地拟合训练数据,允许过度拟合发生n将决策树转化为等价的规则集合,方法是为从根节点到叶节点的每一条路径创建一条规则n通过删除任何能导致估计精度提高的前件来修剪每一条规则n按照修剪过的

9、规则的估计精度对它们进行排序,并按这样的顺序应用这些规则来分类后来的实例第四章解决反向传播算法中的过度拟合问题的方法:权值衰减n它在每次迭代过程中以某个小因子降低每个权值,这等效于修改E的定义,加入一个与网络权值的总量相应的惩罚项,此方法的动机是保持权值较小,从而使学习过程向着复杂决策面的反方向偏置验证数据n一个最成功的方法是在训

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。