基于粗糙集和决策树的数据挖掘方法

基于粗糙集和决策树的数据挖掘方法

ID:5349913

大小:789.24 KB

页数:4页

时间:2017-12-08

基于粗糙集和决策树的数据挖掘方法_第1页
基于粗糙集和决策树的数据挖掘方法_第2页
基于粗糙集和决策树的数据挖掘方法_第3页
基于粗糙集和决策树的数据挖掘方法_第4页
资源描述:

《基于粗糙集和决策树的数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第27卷第5期东北大学学报(自然科学版)Vol27,No.52006年5月JournalofNortheasternUniversity(NaturalScience)May2006文章编号:1005-3026(2006)05-0481-04基于粗糙集和决策树的数据挖掘方法1222吴成东,许可,韩中华,裴涛(1.东北大学信息科学与工程学院,辽宁沈阳110004;2.沈阳建筑大学信息与控制工程学院,辽宁沈阳110168)摘要:从粗糙集和决策树两种方法具有的优势互补性出发,提出了一种基于粗糙集和决策树相结合的数据挖掘新方法以胶合板缺陷检测数据

2、分析为应用对象,利用粗糙集理论对胶合板数据库中的特征信息进行缺陷识别利用谱系聚类重心距离法对数据进行离散化处理,采用粗糙集进行属性约简,得到低维样本数据,最后用决策树方法产生决策规则实验证明,这种数据挖掘方法保留了原始数据的内部特点,加快了获取知识的进程,提高了模型的分类准确率,增强了规则的可解释性,取得了满意的研究结果关键词:粗糙集;决策树;数据离散化;数据挖掘;谱系聚类;属性约简中图分类号:TP391文献标识码:A随着计算机技术和信息技术的发展,信息的的、有用的规则信息等情况由于粗糙集和决策树增长速度呈指数上升,最近几十年产生了很多超

3、具有很强的优势互补性,因此,如果将两种方法有大型数据库,涉及超级市场销售、银行存款、制造机结合,即采用粗糙集进行数据约简,去除冗余属业和科学研究等领域信息量的急剧增长,使传统性,然后利用决策树方法来产生分类规则,有可能分析方法远远不能满足现实的需求面对海量数形成新的有效分类方法据,如何从中发现有价值的信息或知识,成为一项1数据挖掘方法设计重要和艰巨的任务,需要提供一种去粗存精、去伪存真的技术,而数据挖掘作为一种潜在的、功能强11基于谱系聚类的数据离散化大的新技术,能够帮助用户在海量的、隐含的、事谱系聚类法是广泛应用的一种聚类方法,它先未知的数据

4、中找到重要的和有价值的信息,能是根据植物分类学的思想对研究对象进行分类的预测未来趋势和行为,使商务活动具有前瞻性,有方法在植物分类学中,分类的单位是门、纲、目、助于用户做出基于知识的决策科、属和种,其中,种是分类的基本单位,分类单位目前,数据挖掘主要研究热点是由单一的数越小,它所包含的植物就越少,植物间的共同特征据挖掘方法发展为多种方法相结合来获取知识就越多利用这种分类思想,谱系聚类首先使各样本文提出了一种基于粗糙集和决策树结合的数据品或变量自成一类,然后把最相似(距离最小或相挖掘新方法粗糙集理论在处理大数据量,消除冗似系数最大)的样品或变量聚为

5、小类,再将已聚合余信息等方面具有一定的优势,因此广泛应用于的小类按其相似性(用类间距离度量)再聚合,随数据挖掘的数据预处理、属性约简等方面但是,着相似性的减弱,最后将子类都聚合成一个大类,由于粗糙集理论的分类通常是确定的,且缺乏交从而得到一个按相似性大小聚结起来的一个谱系互验证功能,所以其结果往往不稳定,精度不图谱系聚类法是根据类间距离进行聚类的,类与[1,2]高决策树是一种类似于流程图的树状结构,类之间的距离有多种定义方式,比较常用的有如这种方法具有速度快,易于转换成简单而便于理下5种方法:最短距离法、最长距离法、类平均距解的分类规则,易于转换成数

6、据库查询语言等优离法、重心距离法、离差平方和距离法由于重心点然而,当数据集中的属性过多时,用决策树分距离法与其他方法相比,具有聚类精度高、速度快类易出现结构性差,难以发现一些本来可以找到等优点,故本文采用重心距离法进行数据离散化收稿日期:2005-06-22基金项目:科技部国际合作重点项目(2003DF020009)作者简介:吴成东(1960-),男,辽宁大连人,东北大学教授,博士生导师482东北大学学报(自然科学版)第27卷处理重心距离法定义为有用户界面,所以操作直观,容易理解国际上最Dp,q=d(xp,xq)(1

7、)有影响和最早的决策树方法是J.R.Quinlan提出[6]其中,以i,j分别表示样品xi,xj的序号,(i=1,的ID3方法,其基本思路是选择具有最高信息2,,p;j=1,2,,q),以di,j记i与j的距离d增益的属性作为当前节点的测试属性对测试属(xi,xj),Gp和Gq分别表示两个类,设它们分别性的每个已知的值,创建一个分支,并据此划分样含有np和nq个样品,若类Gp中有样品x1,x2,本,根节点属性的每个值都是一个子集这个过程,xp,则其均值可以递归地应用到每个子树上进一步划分,直到np子集中的所有元素都是同一类时停止划分,便生1xp

8、=nxi(2)成一棵决策树ID3方法基本原理是设属性A具pi=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。