数据挖掘CHAPTER4数据挖掘原语、语言和系统结构

数据挖掘CHAPTER4数据挖掘原语、语言和系统结构

ID:41701668

大小:195.45 KB

页数:18页

时间:2019-08-30

数据挖掘CHAPTER4数据挖掘原语、语言和系统结构_第1页
数据挖掘CHAPTER4数据挖掘原语、语言和系统结构_第2页
数据挖掘CHAPTER4数据挖掘原语、语言和系统结构_第3页
数据挖掘CHAPTER4数据挖掘原语、语言和系统结构_第4页
数据挖掘CHAPTER4数据挖掘原语、语言和系统结构_第5页
资源描述:

《数据挖掘CHAPTER4数据挖掘原语、语言和系统结构》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第四章数据挖掘原语、语言和系统结构关于数据挖掘,一个流行的错误观点是:期望数据挖掘系统能够自动地挖掘出埋藏在给定的大型数据库中的所有有价值的知识,而不需要人的干预或指导。尽管有一个白动数据挖掘系统看上去是吸引人的,但在实践中,它将不可能涵盖大部分模式集。所产生的全部模式的大小很容易超过给定的数据库。让数据挖掘系统“放纵”地去发现模式,而不提供用户希望探杳数据库的哪些部分,什么样的模式用户感兴趣,就是放纵数据挖掘“怪物”。所发现的大部分模式与用户的分析任务无关。此外,尽管有些模式与分析任务有关,但是它们可能太难理解,或缺乏有效性、新颖性

2、或实用性一一使得它们不令人感兴趣。这样,产生、存放或提供由给定的数据库可能发现的所有模式既不现实,又不是所期望的。一个更现实的做法是:希望用八能够通过使用一组数据挖掘原语与数据挖掘系统通讯,以支持冇效的和冇成果的知识发现。这组原语包括说明数据库的部分或用户感兴趣的数据集(包括感兴趣的数据库属性或数据仓库维),要挖掘的知识类型,用于指导挖掘过程的背景知识,模式评估兴趣度量和如何显示所发现的知识。这些原语允许用户在知识发现时与数据挖掘系统通讯,从不同的角度和深度审查发现结果,并指导挖掘过程。可以设计数据挖掘查询语言集成这些原语,允许用户口

3、由地与数据挖掘系统交互。数据挖掘查询语言也为建立友好的图形用户界面捉供了基础。此外,为了实现数据挖掘系统,一个精心设计的系统结构是非常重要的。这将有助于数据挖掘系统与其它信息系统通讯,有利于它与整个拮息处理环境的集成。本章,你将详细学习数据挖掘原语,研究根据这些原则设计数据挖掘查询语言。此外,你还将学习数据挖掘系统的系统结构。4.1数据挖掘原语:什么定义数据挖掘任务?每个川户脑袋里都冇一个数据挖掘任务,即,他想要进行的数据分析形式。一个数据挖掘任务可以用数据挖掘查询的形式说明,它是数据挖掘系统的输入。数据挖掘查询用以下原语定义,如图4

4、」所示。图4.1定义数据挖掘任务或查询■任务相关的数据:这是要考察的数据库部分。例如,假定你是AllElectronics的经理,负责美国和加拿大的销售。特殊地,你想研究加拿大顾客的购买趋势。你可能说明只提取加拿大顾客的购买数据,以及相关顾客的简要信息,而不是挖掘整个数据庫。你还可以说明挖掘过程中需要考虑的感兴趣的属性。这些属性称为相关属性I。例如,如呆你只关心顾客购买的商站与其年收入和年龄之间的可能联系,则关系item的属性name,关系customer的属性income和age可能被说明为挖掘任务相关的属性。■要挖掘什么类型的知识

5、:这是说明耍执行的数据挖掘函数,如特征、区別、关联、分类、聚类或演变分析。例如,如果研究加拿大顾客的购买习惯,你可能选择挖掘顾客和他们喜爱买的商品之间的关联规则。任务相关数齬■背景知识:用户可以说明背景知识,或关于挖掘领域的知识。对于指导知识发现过程和评佔发现的模式,这些知识是非常冇用的。冇多种类型的背杲知识。木章,我们将注意力集中在一种称作概念分层的流行的背景知识上。概念分层是有用的,它允许在多个抽象层上挖掘数据。其它例子包括用户对数据联系的确信。这些根据模式的非预期程度(这里,非预期的模式被认为是感兴趣的)或预期程度(这里,验证了

6、某种用户假定的模式是有趣的)评估发现的模式。数据库或数据仓库名数据库表或数据仓库的数据方数据选择条件相关厘性或维数据分组条件挖乘的知识类型ssi青景知识槪念分层用戶对数据联系的确信模式兴捷度度量简洁性可信性(如》置信度)实用性(如,支持度)新颖性发現複式的可視化规则、表、报告、图表、图、判定树和数据方下钻或上卷图4.2说明数据挖掘任务的原语■兴趣度度量:这些功能用于将不感兴趣的模式从知识屮分开。它们可以用于指导挖掘过程,或在挖掘之后,评佔发现的模式C不同类型的知识需要不同的兴趣度度量。例如,对于关联如果挖掘在多维数据方上进行,用户可以

7、指定相关维。规则,兴趣度度量包括支持度(出现规则模式的任务相关元组所占的百分比)和置信度(规则的蕴涵强度估计)。其支持度和置信度小于用户指定的阈值的规则被认为是不感兴趣的。■发现模式的提供和可视化:这涉及发现模式的显示形式。用户可以选择不同的知识表现形式,如规则、表、图、判定树和数据方。下面,我们仔细考察这些原语。这些原语的说明总结在图4.2中。4.1.1任务相关的数据第一个原语是说明待挖掘的数据。通常,用户感兴趣的只是数据库的一个了集。不加区分地挖掘整个数据库是不现实的,特别是由于所产生的模式可能随数据库的大小指数地增长,使得挖掘过

8、程效率很低。此外,所发现的许多模式与用户的兴趣无关。在关系数据库中,任务相关的数据集可以通过涉及如选择、投彫、连接和聚集等操作的关系查询来收集。这种数据提取可以认为是数据挖掘任务的一个“了任务”。数据收集过程产生一个新的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。