数据挖掘绪论ppt课件.ppt

数据挖掘绪论ppt课件.ppt

ID:59470436

大小:82.50 KB

页数:34页

时间:2020-09-14

数据挖掘绪论ppt课件.ppt_第1页
数据挖掘绪论ppt课件.ppt_第2页
数据挖掘绪论ppt课件.ppt_第3页
数据挖掘绪论ppt课件.ppt_第4页
数据挖掘绪论ppt课件.ppt_第5页
资源描述:

《数据挖掘绪论ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第1章绪论《数据挖掘与知识发现》(第2版)内容简介本章综合讨论数据挖掘的一般知识,介绍如下几个方面的内容:数据挖掘的基本概念KDD与数据挖掘数据挖掘的对象与环境数据挖掘方法与相关领域数据挖掘系统与应用为何进行数据挖掘数据存储量急剧上升NASA轨道卫星上的EOS每小时向地面发回50GB的图像数据美国零售商系统Wal-Mart每天产生2亿交易数据人类基因组项目已经搜集数以GB计的基因编码数据存储技术的发展大容量、高速度、低价格的存储设备相继问世数据仓库技术VLDB技术面临的问题信息量过大,超过了人们掌握、消化的能力一些信息真伪难辨,难以

2、正确运用信息组织形式的不一致性,增加信息处理难度新的认识隐藏在数据之后更深层次、更重要的信息能够描述数据的整体特征,可以预测发展趋势,在决策中具有重要价值。数据挖掘技术发展里程面对海量数据库和大量繁杂信息,如何从中提取有价值的知识,提高信息的利用率,引发了一个新的研究方向:基于数据库的知识发现KDD(KnowledgeDiscoveryinDatabase)以及相应的数据挖掘(DataMining)理论和技术的研究。1989年第十一届AAAI学术会议上首次出现KDD一词其后,在VLDB(VeryLargeDatabase)及其他与数

3、据库领域相关的国际学术会议上也举行了KDD专题研讨会。1995年召开第一届KDD国际学术会议(KDD’95)之后,每年召开一次这样的会议。1997年《KnowledgeDiscoveryandDataMining》该领域的第一本学术刊物,由KluwersPublishers出版发行。1999年召开第三届亚太地区知识发现和数据挖掘国际会议这次北京会议将国内数据挖掘的研究推向新的高潮。随后,KDD的研究工作蓬勃展开KDD的定义公认的定义是1996年Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖

4、的、潜在有用的、最终可被理解的模式的非平凡过程。Thenontrivialprocessofidentifyingvalid,novel,usefulandultimatelyunderstandablepatternsindata.KDD中的术语数据:指一个有关事实F的集合,用以描述事物的基本信息。模式:语言L中的表达式E,E描述的数据是集合F的一个子集。表明集合FE中的数据具有特性E。作为一个模式,E比枚举数据子集FE简单。非平凡过程:指具有一定程度的智能性和自动性,不仅仅是简单地数值统计和计算。有效性(可信性):从数据中发现的

5、模式必须有一定的可信度,函数C将表达式映射到度量空间MC,c表示模式E的可信度,c=C(E,F)。其中EL,E所描述的数据集合FEF。新颖性:用一个函数来表示模式的新颖程度N(E,F),函数值是逻辑值或是对模式E的新颖程度的一个判断数值。新颖性从两个方面衡量:当前得到的数据与以前的数据或期望得到的数据之间比较对比发现的模式与已有模式的关系来判断潜在作用:指提取出的模式将来会实际运用,通过函数U把L中的表达式映射到测量空间MU,u表示模式E的有作用程度,u=U(E,F)。可理解性:发现的模式应该能够被用户理解,这主要体现在简洁性上

6、。用s表示模式E的简单度(可理解度),s=S(E,F)。KDD的过程KDD过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。KDD过程数据准备了解KDD应用领域的有关情况。包括熟悉相关的背景知识,搞清用户需求。数据选取根据用户的需要从原始数据库中选取相关数据或样本。数据预处理检查数据的完整性及一致性,消除噪声,滤除与数据挖掘无关的冗余数据,填充丢失的数据。数据变换通过投影或利用数据库的其他操作减少数据量。确定目标根据用户的要求,确定KDD要发现的知识类型。选择算法选择合适的知识发现算法,包括选取合适的模型和参数。数据挖掘

7、运用前面选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。模式解释对在数据挖掘步骤中发现的模式(知识)进行解释。经过用户或机器评估后,剔除冗余或无关的模式。知识评价将发现的知识以用户能理解的方式呈现给用户。这期间包含对知识一致性的检查,以确信发现的知识不会与以前发现的知识相抵触。数据挖掘技术发展历程数据与系统的特征KDD和数据挖掘可以应用在很多领域,KDD系统及其面临的数据具有一些公共特征和问题:海量数据集。数据利用非常不足。在开发KDD系统时,领域专家对该领域的熟悉程度至关重要。最终用户专门知识缺乏。数据结构与类

8、型事务数据库由文件构成,每条记录代表一个事务。典型的事务包含唯一的事务标识(trans_ID),多个项目组成一个事务。事务数据库可以用额外附加的关联表记录其他信息。面向对象数据库基于面向对象程序设计的范例,每一个实体作为一个对象。与对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。