从决策树学习谈到贝叶斯分类算法、EM、HM

从决策树学习谈到贝叶斯分类算法、EM、HM

ID:45772129

大小:204.25 KB

页数:40页

时间:2019-11-17

从决策树学习谈到贝叶斯分类算法、EM、HM_第1页
从决策树学习谈到贝叶斯分类算法、EM、HM_第2页
从决策树学习谈到贝叶斯分类算法、EM、HM_第3页
从决策树学习谈到贝叶斯分类算法、EM、HM_第4页
从决策树学习谈到贝叶斯分类算法、EM、HM_第5页
资源描述:

《从决策树学习谈到贝叶斯分类算法、EM、HM》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM本文借鉴和参考了两本书,一本是TomAA.Mitchhell所著的机器学习,一本是数据挖掘导论,这两本卩皆分别是机器学习&数据挖掘领域的开山or杠鼎Z作。分类与聚类,监督学习与无监督学习在讲具体的分类和聚类算法Z前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题。•Classification(分类),对于一•个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个classifier会从它得到的训练集小进行“学习”,从而具备对未知数据进行分类的能力,这种提供训

2、练数据的过程通常叫做supervisedlearning(监秤学习),•而Clustering(聚类),简单地说就是把相似的东西分到-•纽,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,I大I此,一个聚类算法通常只需要知道如何计算相似度就町以开始工作了,因此clustering通常并不需耍使用训练数据进行学习,这在MachineLearning屮被称作unsupervisedlearning(无监督学习).常见的分类与聚类算法所谓分类分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。如在口然语言处理NLP中,我们经常提到

3、的文本分类便就是一个分类问题,一般的模式分类方法都可川丁•文本分类研究。常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法(rurtiveBayesianclassifier)、基于支持向量机侶VM)的分类器,神经网络法,k-最近邻法(k-nearestneighbor,kNN),模糊分类法等等(所有这些分类算法日后在本blog内都会一一陆续阐述)。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与Z对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大

4、,这时候可以考虑使川聚类算法。而K均值(K-meansclustering)聚类则是最典型的聚类算法(当然,除此Z外,还冇很多诸如属于划分法K-MEDOIDS算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON»法等;基丁-密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基丁•网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法,本系列后续会介绍其中儿种)。监督学习与无监督学习机器学习发展到现在,一般划分为监督学习(supervisedlearning),半监督学习(semi

5、-supervisedlearning)以及无监督学习(unsupervisedlearning)三类。举个具休的对应例子,则是比如说,在NLP词义消岐小,也分为监督的消岐方法,和无监督的消岐方法。在有监督的消岐方法屮,训练数据是已知的,即每个词的语义分类是被标注了的;而在无监督的消岐方法中,训练数据是未经标注的。上而所介绍的常见的分类算法属于监督学习,聚类则属于无监督学习(反过来说,监替学习属于分类算法则不准确,因为监督学习只是说我们给样木sample同时打上了标签(label),然后同时利用样本和标签进行相应的学习任务,而不是仅仅局限于分类任务。常见的其他监督问题

6、,比如相似性学习,特征学习等等也是监督的,但是不是分类)。再举个例子,正如人们通过已知病例学习诊断技术那样,计算机要通过学习才能具佇识别各种事物和现彖的能力。用来进行学习的材料就是与被识别对彖屈于同类的有限数暈样本。监督学习中在给予计算机学习样本的同时,还告诉计算各个样本所属的类别。若所给的学习样木不带有类别信息,就是无监督学习(浅显点说:同样是学习训练,监督学习屮,给的样例比如是已经标注了如心脏病的,肝炎的;而无监督学习中,就是给你一犬堆的样例,没冇标明是何种病例的)。而在支持向量机导论一书给监督学习下的定义是:当样例是输入/输出对给出时,称为监督学习,有关输入/输

7、出断数关系的样例称为训练数据。而在无监督学习中,其数据不包含输出值,学习的任务是理解数据产牛的过程。第一部分、决策树学习1.1、什么是决策树咱们直接切入正题。所谓决策树,顾名思义,是i种树,一种依托于策略抉择而建立起来的树。机器学习中,决策树是一个预测模型;他代表的是对彖属性与对彖值Z间的一种映射关系。树中每个节点表示某个对彖,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所农示的対象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习,通

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。