论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势

论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势

ID:46810274

大小:79.50 KB

页数:5页

时间:2019-11-28

论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势_第1页
论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势_第2页
论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势_第3页
论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势_第4页
论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势_第5页
资源描述:

《论贝叶斯分类、决策树分类、感知器分类挖掘算法的优势与劣势》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、摘要本文介绍了在数据挖掘中数据分类的儿个主要分类方法,包括:贝叶斯分类、决策树分类、感知器分类,及其各自的优势与劣势。并对于分类问题中出现的高维效应,介绍了两种通用的解决办法。关键词数据分类贝叶斯分类决策树分类感知器分类引言数据分类是指按照分析对象的属性、特征,建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一,主要是通过分析训练数据样木,产生关于类别的精确描述。这种类别通常由分类规则组成,可以用來对未來的数据进行分类和预测。分类技术解决问题的关键是构造分类器。%1.数据分类数据分类一般是两个步骤的过程:第1步:建立一个模型,描述给定的数据类集或概念集

2、(简称训练集)。通过分析由属性描述的数据库元组来构造模型。每个元组属于一个预定义的类,由类标号属性确定。用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本。由于给出了类标号属性,因此该步骤又称为有指导的学习。如杲训练样本的类标号是未知的,则称为无指导的学习(聚类)。学习模型可用分类规则、决策树和数学公式的形式给出。第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。常用的分类规则挖掘方法分类规则挖掘冇着广泛的应川前景。对于分类规则的挖掘通常冇以下几种方法,不同的方法适用于不同特点的数据:1.贝叶斯方法2.决策

3、树方法3.人工神经网络方法4.约略集方法5.遗传算法分类方法的评估标准:准确率:模型正确预测新数据类标号的能力。速度:产生和使用模型花费的时间。健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。伸缩性:对于给定的大量数据,有效地构造模型的能力。可解释性:学习模型提供的理解和观察的层次。影响一个分类器错误率的因素(1)训练集的记录数量。牛成器要利用训练集进行学习,因而训练集越人,分类器也就越可靠。然而,训练集越人,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增人而降低。⑵属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得

4、生成器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出不够准确的分类器(这在技术上被称为过分拟合)。因此,如果我们通过常识可以确认某个属性与目标无关,则将它从训练集屮移走。⑶属性小的信息。有时住成器不能从属性小获取足够的信息來正确、低错谋率地预测标签(如试图根据某人眼睹的颜色来决定他的收入)。加入其他的属性(如职业、每周工作小吋数和年龄),可以降低错误率。⑷待预测记录的分布。如果待预测记录來自不同于训练集中记录的分布,那么错误率冇可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器,那么试图用它来对包含许多运动用车辆的记录进

5、行分类可能没多大用途,因为数据属性值的分布可能是有很大差别的。评估方法有两种方法可以用于对分类器的错谋率进行评估,它们都假定待预测记录和训练集取白同样的样木分布。(1)保留方法(Holdout):记录集中的一部分(通常是2/3)作为训练集,保留剩余的部分用作测试集。生成器使用2/3的数据来构造分类器,然后使用这个分类器来对测试集进行分类,得出的错课率就是评估错课率。虽然这种方法速度快,但山于仅使用2/3的数据来构造分类器,因此它没有充分利用所有的数据来进行学习。如果使用所冇的数据,那么可能构造出更精确的分类器。(2)交叉纠错方法(Crossvalidation

6、):数据集被分成k个没有交叉数据的子集,所有子集的人小人致相同。生成器训练和测试共k次;每一次,生成器使用去除一个子集的剩余数据作为训练集,然后在被去除的子集上进行测试。把所有得到的错误率的平均值作为评估错误率。交叉纠错法可以被重复多次⑴,对于一个t次k分的交叉纠错法,k个分类器被构造并被评估,这意味着交叉纠错法的时间是分类器构造时间的k*t倍。增加重复的次数意味着运行时问的增长和错误率评估的改善。我们可以对k的值进行调整,将它减少到3或5,这样可以缩愆运行吋间。然而,减小训练集有可能使评估产生更大的偏差。通常Holdout评估方法被用在最初试验性的场合,或者

7、多于5000条记录的数据集;交叉纠错法被川于建立授终的分类器,或者很小的数据集。%1.贝叶斯分类贝叶斯分类方法是-•种具有最小错谋率的概率分类方法,可以用数学公式的精确方法表示出来,并且可以用很多种概率理论来解决。设(Q,0,P)为概率空间,Aie©(i=l,2,-,n)为Q的一个有穷剖分,且P(Ai)>0(i=l,2,…,n),则对任意BE0且P(B)>0,有P(AilB)=(i=l,2,…,n)上式称为贝叶斯公式。贝叶斯定理为我们提供了一个计算假设h的示验概率的方法P(hlD)=分类有规则分类和非规则分类,贝叶斯分类是非规则分类,它通过训练集训练而归纳出分

8、类器,并利用分类器对没有分类的数据进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。