《(最新)分类技术在数据挖掘中的应用研究》

《(最新)分类技术在数据挖掘中的应用研究》

ID:37010177

大小:31.50 KB

页数:9页

时间:2019-05-12

《(最新)分类技术在数据挖掘中的应用研究》_第1页
《(最新)分类技术在数据挖掘中的应用研究》_第2页
《(最新)分类技术在数据挖掘中的应用研究》_第3页
《(最新)分类技术在数据挖掘中的应用研究》_第4页
《(最新)分类技术在数据挖掘中的应用研究》_第5页
资源描述:

《《(最新)分类技术在数据挖掘中的应用研究》》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、分类技术在数据挖掘中的应用研究科技信息计算机与网络分类技术在数据控掘巾硇应用酮穷西华师范大学数学与信息学院黎仁国[摘要]本文首先介绍了分类技术的基本概念,讨论了分类方法分析的步骤,阐述了用于构造模型的决策树算法,探讨了决策树算法学习中出现的常见问题的解决方法.展示了应用分类技术挖掘数据的方法,为实际应用提供了理论依据.[关键词]数据挖掘分类决策树0.引言随着计算机技术,存储技术及互联网的发展,大量的数据相应的积累起来,在庞大的数据量面前,人们却陷入了"信息贫乏"的尴尬境地,为了充分利用数据,发掘出有用的知识,大家知道,可以用数据库管理系统来存储数据,也可用机器学习的方法来分析数据和挖掘大

2、量数据背后的知识,于是这两者的结合就促成了数据挖掘相关技术的产生.数据挖掘(DataMining)是指从大规模数据集中提取人们感兴趣且有用的知识,这些知识是隐含的,事先未知的潜在有用信息,它们一般可表示为概念,规则,模式等形式.数据挖掘是一门交叉性学科,它是以机器学习,模式识别,归纳推理,统计学,数据库等多个学科为基础的新兴学科.数据挖掘技术具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持,信息管理,科学研究等许多领域.数据挖掘的任务主要有分类,聚类分析,关联分析,预测等.下面我们逐步细化地来讨论分类挖掘的主要技术.1.分类的概念在数据挖掘过程中,分类方法是使用最广泛的方法之一

3、.它从过去的已分类的经验数据中学习各类别的异同,并建立模型来描述这种区别,用来对未知类别的数据进行分类.分类是数据挖掘的一项重要的任务,它是在已有数据的基础上构造一个分类模型,即分类器,而且该模型能够把数据集中的数据记录映射到给定类别中的某类,从而可以应用于数据预测.若要构造分类模型,则需要有一个训练样本数据集作为输入,该训练样本数据集由一组数据库记录构成,记为:R(F1,F2,…,Fn),还需要用以标识记录的类别的标记c.这样一个具体的样本记录形式可以表示为(Vl,V2,…,Vn;c),其中,vi表示样本的属性值,c表示类别.对同类记录的特征进行描述有显式描述和隐式描述两种.显式描述如

4、一组规则定义;隐式描述如一个数学模型或公式.可以运用很多技术来实现数据分类,如决策树,神经网络,基于规则的,支持向量机,粗糙集等方法.许多分类方法是由机器学习,专家系统,统计学,神经网络等许多领域的专家提出来,这些算法大多数是常驻内存的,而且针对的是较小的数据集.近年来数据挖掘研究领域的新课题是研究可扩展的分类和预测技术,结合并行和分布处理,共同完成处理大规模的常驻磁盘的数据分析任务.分类在医疗诊断,性能预测,选择购物,信誉证实等方面有着非常广泛的应用.2.分类方法分析的步骤分类分析有两个步骤:构建模型和模型应用.构建模型就是对预先确定的类别给出相应的描述.该模型是通过分析数据库中各数据

5、对象而获得的.先假设一个样本集合中的每一个样本属于预先定义的某一个类别,由一个类标号属性来确定.这些样本的集合称为训练集,用于构建模型;由于提供了每个训练样本的类标号,称作有指导的学习.最终的模型即是分类器,可以用决策树,分类规则或者数学公式等来表示.模型构建过程如图l所示.我们可以选取一种分类算法,如决策树算法,输入训练数据,则产生一颗决策树.懂训评练价分分类类器器图1模型构建模型应用就是运用分类器对未知的数据对象进行分类.先用测试数据对模型分类准确率进行估计,例如使用保持方法.保持方法是一种简单的估计分类规则准确率的方法.在保持方法中,把给定数据随机地划分成两个独立的集合:训练集和测

6、试集.通常,三分之二的数据分配到训练集,其余三分之一分配到测试集.使用训练集导出分类器,然后用测试集评测准确率.如果学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未知类别的数据运用分类器进行分类,产生分类结果并输出.应用过程如图2所示.图2模型应用3.决策树算法分类的关键在于如何构建分类器.不同的分类方法的选择导致分类结果的各异.从数据中生成分类器的—个特别有效的方法是生成一个决策树.决策树表示法是应用最广泛的逻辑方法,常用于预测模型,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息.它通过一组输入一输出样本构建决策树.决策树由决策节点,分支和叶子构成

7、.决策节点表示一个与属性值相关的判断.分支表示判断的结果,叶结点对应一个类标号,它的值就是使用决策树对未知样本分类的类标号的值.一旦建好了树,就可以将其应用于数据库中的元组并得到分类结果.决策树的优点是结构简单,便于理解;模型效率高,分类速度快,特别适合大规模的数据处理;不需要受训数据外的知识;具有较高的分类精度.常用的决策树算法有ID3,C4.5,CHAID,CART等决策树的基本核心算法是贪心算法,它以自顶向下递归的各个击破方式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。