数据挖掘中判定树算法的-.研究与优化

数据挖掘中判定树算法的-.研究与优化

ID:32004814

大小:5.84 MB

页数:44页

时间:2019-01-30

数据挖掘中判定树算法的-.研究与优化_第1页
数据挖掘中判定树算法的-.研究与优化_第2页
数据挖掘中判定树算法的-.研究与优化_第3页
数据挖掘中判定树算法的-.研究与优化_第4页
数据挖掘中判定树算法的-.研究与优化_第5页
资源描述:

《数据挖掘中判定树算法的-.研究与优化》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、上海师范人学硕:卜研究生学位论文数据挖掘中决策树算法的研究‘j优化第二章数据挖掘与分类规则挖掘2.1数据挖掘的产生随着信息技术的快速发展和信息搜集能力的日益提高,产生了海量的数据。面对如此丰富的海量数据,传统的数据处理方法和能力己远远不能满足实际的需求。大量的数据未能充分利用这一现象常常被描述为“数据爆炸,但知识贫乏”。快速增长的海量数据收集、存放在大量数据库中,如果没有强有力的工具的帮助,理解它们已经远远超出了人的能力。结果,存放在大量数据库中的数据变成了“数据坟墓"。这样,重要的决策常常不是

2、基于数据库中信息丰富的数据,而是基于决策者的直觉。此外,相当数量的数据具有很强的时效性,数据的价值随着时间的推移而迅速降低。为此,人们迫切需要能从海量数据中发现潜在有用的信息和知识的工具,数据挖掘技术正是为满足这一需求而产生的。目前在国外已有许多领域成功采用数据挖掘辅助决策,如市场营销、零售业、金融、医疗保险、政府部门及科学研究等,已充分显示了这一信息技术的优越性,这也促进了应用和研究的进一步发展。2.2数据挖掘的定义和特性数据挖掘出现于20世纪80年代末期,在90年代有了突飞猛进的发展,是当前

3、仍十分活跃的前沿领域之一。作为一个新兴的交叉学科,它从多个学科汲取营养。这些学科包括数据库技术、人工智能、机器学习、神经网络、统计学、模式识别、知识库系统、知识获取、信息检索、高性能计算和数据可视化。简单地说,数据挖掘是从大量数据中提取或“挖掘"知识。一种比较公认的定义是:数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程f12】【13】1141。即数据挖掘是要发现那些靠直觉不能发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的知识越是出乎意料,可能就越有价

4、值。这正是数据挖掘与传统的数据分析的本质区别。数据挖掘所得到的信息应具有未先知、有效和实用三个特征。通过数据挖掘,可以从数据库中提取有趣的知识、规律或高层信息,并可以从不同角度观察或浏览。发现的知识可以用于决策、过程控制、信息管理和查询处理等。因此,数据挖掘被产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科之一。和数据挖掘概念密切相关的还有数据库中的知识发现(KhowledgeDiscoveryinDatabases简称KDD),有许多人将数据挖掘视为数据库中知识发现的一个基

5、本步骤。如图1所示,知识发现过程主要由以下步骤组成【15】。(1)数据选择;(2)数据预处理:5一f:海师范人学硕上研究生学位论文数据挖掘中决策树算法的研究与优化(3)模式提取;(4)模式解释与评价;(5)知识表示。选择目标教据集撩处理数据挖掘模式謦释‘横式提取)与评价知识图l知识发现过程Figl11Iep眦嘲ofl‘nowledgedisc吖ery日厨2.3数据挖掘模式数据挖掘的任务是从数据中发现模式。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。模式按功能通常可以分为以下两大类:预测型模

6、型和描述型模型。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。在实际应用中,常常根据模式的实际作用细分为以下几种【16】【17l:1.分类模式;能够把数据集中的数据映射到某个给定的类上,从而可以用来预测数据对象的类标记。它可以用多种形式来表示,如分类规则、判定树、数学公式或神经网络:2.回归模式;使用一系列现有数值来预测因变量的可能值。它与分类模式的最显著差别在于分类模式的预测值是离散的,回归模式的预测值是连续的:3.时间序列模式;根据数据随时间变化的

7、趋势预测将来的值。其中要考虑时间的特殊性质,只有充分考虑时间因素,利用现有的数据随时间变化的一系列的值,才能更好的预测将来的值;4.聚类模式;识别一组数据对象的内在规则,可以把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小.与分类模式不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些数据项来定义组;5.关联模式;描述事物之问同时出现的规律的知识。更确切地说,是通过量化的数字描述A的6上海师范大学硕上研究生学位论文数据挖掘中决策树算法的研究与优化出现对B的出现有

8、多大影响;6.序列模式与关联分析类似,只是扩展为一段时间的项目集间的关系,常把序列模式看作由时间变量连接起来的关联。序列模式可对长时期的相关纪录分析,发现经常发生的模式。在解决实际问题时,经常要同时使用多种模式。分类模式和回归模式使用最为普遍。分类模式、回归模式、时间序列模式被认为是受监督知识,因为在建立模式前数据的结果是已知的可以直接用来检测模式的准确性,模式的产生是在受监督的情况下进行的。一般在建立这些模式时,使用一部分数据作为样本用另一部分数据来检验、校正模式。聚类模式、关联模式、序列模式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。