粗集方法在kdd系统中的应用与研究

粗集方法在kdd系统中的应用与研究

ID:22317125

大小:57.00 KB

页数:6页

时间:2018-10-28

粗集方法在kdd系统中的应用与研究_第1页
粗集方法在kdd系统中的应用与研究_第2页
粗集方法在kdd系统中的应用与研究_第3页
粗集方法在kdd系统中的应用与研究_第4页
粗集方法在kdd系统中的应用与研究_第5页
资源描述:

《粗集方法在kdd系统中的应用与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、粗集方法在KDD系统中的应用与研究

2、第1粗集方法在KDD系统中的应用与研究周波(西安电子科技大学多媒体研究所西安710086)【摘要】本文论述了粗集方法性质及特点,提出了粗集方法在KDD系统中的应用模型,同时给出了应用这一模型对一个数据库实例进行数据挖掘的过程。另外,从精确性、鲁棒性等方面对KDD系统中的粗集方法的适用范围进行了分析。【关键词】粗集KDD数据挖掘ApplicationandResearchofRoughSetinKDDSystemZhoubo(MultimediaTechnologyInstitute,XidianUniversityXi’an710086)Abstrac

3、t:Inthispaper,odelofroughsetinKDDsystem.Also,byanexample,theadvantageanddisadvantageofroughsetinKDDsystemisanalysedindetail.Keyining1.前言数据库中的知识发现技术(Knoso-bidi-font-al">KDD)是随着数据库和人工智能的发展而产生的,它是“从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的非平凡过程”。通过KDD,人们可以将知识发现的研究成果应用于实际数据处理中,为科学决策提供支持。KDD系统中的知识学习阶段被称为“数据挖掘”(Da

4、taMining,DM),它的算法是KDD系统的核心。近年来,粗集理论(RoughSetTheory)开始逐渐应用到DM的领域中,在对大型数据库中不完整数据进行分析和学习方面取得了显著的效果,因此,以粗集为代表的集合论方法是今后KDD技术的一个主要研究方向。2.KDD系统中粗集方法的基本特征粗集(RoughSet)理论和模糊集(FuzzySet)理论都是针对不确定性问题提出的,它们既相互独立,又相互补充。粗集方法与传统的统计及模糊集方法不同的是:后者需要依赖先验知识对不确定性的定量描述,如统计分析中的先验概率、模糊集理论中的模糊度等等;而前者只依赖数据内部的知识,用数据之间的近似来表示知

5、识的不确定性。用粗集来处理不确定性问题的最大优点在于,它不需要关于数据的预先或附加的信息,而且容易掌握和使用。粗集中不精确的要领包含下近似和上近似两个定义,前者指的是所有对象都一定被包含,后者指的是所有对象可能被包含。粗集的一些理论和方法可用来从数据库中发现分类规则。其基本思想是,将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间的上下近似关系生成判定规则。粗集理论中的信息系统可用一个四元组来表示:S={R,A,V,f}。其中R是一个非空集合,表示数据库中的所有记录(Record);A表示数据库

6、中的全部属性(Attribute);V是属性值组成的集合;f是属性和记录的函数,f(a,e)的值确定记录e关于属性a的取值。对于属性集A中的任意一个属性a,如果记录和记录对于属性a的取值相同,我们称和基于属性集相等。基于某个属性集A的所有等价记录的集合,被定义为等价类。属于同一等价类的记录归为一类,此分类称为R基于属性集A的划分,表示为。3.应用粗集方法进行数据挖掘的过程我们以一个具体的数据库的作为实例(如图1所示),使用粗集的方法对其中的知识进行分析和预测。为了说明KDD系统中粗集方法的实质,我们简化了问题域,只取出“汽车数据库”中的10个记录,而且只分析三个字段(Po0cm0pt;T

7、EXT-INDENT:0cm;LINE-HEIGHT:18pt;mso-line-height-rule:exactly">No.Po0cm0pt;TEXT-INDENT:0cm">TurbosoBodyTextIndentstyle="MARGIN:0cm0cm0pt;TEXT-INDENT:0cm">1HIGHYESMED2LOsoBodyTextIndentstyle="MARGIN:0cm0cm0pt;TEXT-INDENT:0cm">NOLIGHT3MEDIUMYESLIGHT4HIGHNOLIGHT5HIGHYESMED6MEDIUMYESLIGHT7LOsoBodyText

8、Indentstyle="MARGIN:0cm0cm0pt;TEXT-INDENT:0cm">NOHEAVY8HIGHNO`HEAVY9HIGHYESMED10LOsoBodyTextIndentstyle="MARGIN:0cm0cm0pt;TEXT-INDENT:0cm">NOHEAVY图1汽车特征数据库(部分)在这个数据库中,R={1,2,3,4,5,6

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。