数据挖掘--分类课件ppt

数据挖掘--分类课件ppt

ID:40620419

大小:1.14 MB

页数:106页

时间:2019-08-05

数据挖掘--分类课件ppt_第1页
数据挖掘--分类课件ppt_第2页
数据挖掘--分类课件ppt_第3页
数据挖掘--分类课件ppt_第4页
数据挖掘--分类课件ppt_第5页
资源描述:

《数据挖掘--分类课件ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题2021/7/231分类的流程根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类?动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是爬行动物猪大04否是爬行动物牛大04否是爬行动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类动物A大02是无?动物B中22否是?2021/7/232分类的流程步骤一:将样本转化为等维的数据特征(特征提取)。所有样本必须具有相同数

2、量的特征兼顾特征的全面性和独立性动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是爬行动物猪大04否是爬行动物牛大04否是爬行动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类2021/7/233分类的流程步骤二:选择与类别相关的特征(特征选择)。比如,绿色代表与类别非常相关,黑色代表部分相关,灰色代表完全无关动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是爬行动物猪大04否是爬行动物牛大04否是爬行动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类2021/7/234分类的流程步骤三:建立分类模型或

3、分类器(分类)。分类器通常可以看作一个函数,它把特征映射到类的空间上2021/7/235如何避免过度训练分类也称为有监督学习(supervisedlearning),与之相对于的是无监督学习(unsupervisedlearning),比如聚类。分类与聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。建立分类模型需要学习一部分已知数据,如果训练时间过长,或者预测模型参数太多而样本较少,将导致过度训练(overfitting)。2021/7/236如何避免过度训练避免过度训练最重要一点是,模型的参数量应远小于样本的

4、数量。应建立训练集(trainingset)和测试集(testset)。训练集应用于建立分类模型测试集应用于评估分类模型K折叠交叉验证(K-foldcrossvalidation):将初始采样分割成K个子样本(S1,S2,...,Sk),取K-1个做训练集,另外一个做测试集。交叉验证重复K次,每个子样本都作为测试集一次,平均K次的结果,最终得到一个单一估测。2021/7/237分类模型的评估真阳性(TruePositive):实际为阳性预测为阳性真阴性(TrueNegative):实际为阴性预测为阴性假阳性(FalsePositive):

5、实际为阴性预测为阳性假阴性(FalseNegative):实际为阳性预测为阴性预测是否正确预测结果比如预测未知动物是鸟类还是爬行动物,阳性代表爬行动物,阴性代表非爬行动物,请大家阐述TP=10,TN=8,FN=3,FP=2是什么意义2021/7/238分类模型的评估灵敏度(Sensitivity):TP/(TP+FN)也称为查全率(Recall)数据集共有13只爬行动物,其中10只被正确预测为爬行动物,灵敏度为10/13特异度(Specificity):TN/(TN+FP)数据集有10只非爬行动物,其中8只被预测为非爬行动物,特异度为8/

6、10精度(Precision):TP/(TP+FP)分类器预测了12只动物为爬行动物,其中10只确实是爬行动物,精度为10/12准确率(Accuracy):(TP+TN)/(TP+TN+FN+FP)数据集包含23只动物,其中18只预测为正确的分类,准确率为18/232021/7/239分类模型的评估对于非平衡(unblanced)的数据集,以上指标并不能很好的评估预测结果。非平衡的数据集是指阳性数据在整个数据集中的比例很小。比如,数据集包含10只爬行动物,990只爬行动物,此时,是否预测正确爬行动物对准确率影响不大。更平衡的评估标准包括马

7、修斯相关性系数(Matthewscorrelationcoefficient)和ROC曲线。马修斯相关性系数定义为2021/7/2310分类模型的评估ROC曲线通过描述真阳性率(TPR)和假阳性率(FPR)来实现,其中TPR=TP/(TP+FN),FPR=FP/(FP+TN)。大部分分类器都输出一个实数值(可以看作概率),通过变换阈值可以得到多组TPR与FPR的值。2021/7/2311第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题2021/7/2312基于距离的分类算法的思路

8、定义4-2给定一个数据库D={t1,t2,…,tn}和一组类C={C1,…,Cm}。假定每个元组包括一些数值型的属性值:ti={ti1,ti2,…,tik},每个类也包含数值性属性值:Cj={

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。