数据挖掘:简介和答疑

数据挖掘:简介和答疑

ID:36504538

大小:138.50 KB

页数:8页

时间:2019-05-11

数据挖掘:简介和答疑_第1页
数据挖掘:简介和答疑_第2页
数据挖掘:简介和答疑_第3页
数据挖掘:简介和答疑_第4页
数据挖掘:简介和答疑_第5页
资源描述:

《数据挖掘:简介和答疑》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据挖掘P3什么是数据挖掘(概念)?答:数据挖掘是指从大量数据中提取或“挖掘”知识;广义上讲数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据中发现有趣知识的过程。什么是知识发现(KDD)?知识发现的步骤。答:知识发现是所谓"数据挖掘"的一种更广义的说法,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。其步骤如下:1)数据清理2)数据集成3)数据选择4)数据变换5)数据挖掘6)数据评估7)知识表现P8数据仓库,数据集市的概念及其区别。答:数据仓库是一

2、个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在单个站点,数据仓库是通过数据清理、数据变换、数据集成、数据装入和定期数据刷新过程来构造。数据集市(DataMart),也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。数据仓库收集了跨部门的整个组织的主题信息,因此它是企业范围的;另一方面,数据集市是数据仓库的一个部门子集,它聚焦在选定的主题上,是部门范围的。P22数据挖掘系统与数据库系统或数据仓库系统的集成方式(四种)及其优缺点。数据

3、挖掘(DM)系统设计的一个关键问题是如何将DM系统与数据库(DB)系统和/或数据仓库(DW)系统集成或耦合。.不耦合(nocoupling):不耦合意味着DM系统不利用DB或DW系统的任何功能。它可能由特定的数据源(如文件系统)提取数据,使用某些数据挖掘算法处理数据,然后再将挖掘结果存放到另一个文件中。尽管这种系统简单,但有不少缺点。首先,DB系统在存储、组织、访问和处理数据方面提供了很大的灵活性和有效性。不使用DB/DW系统,DM系统可能要花大量的时间查找、收集、清理和变换数据。在DB和/或DW

4、系统中,数据多半被很好地组织、索引、清理、集成或统一,使得找出任务相关的、高质量的数据成为一项容易的任务。其次,有许多经过测试的、可伸缩的算法和数据结构在DB或DW系统中得到实现。使用这种系统开发有效的、可伸缩的实现是可行的。此外,大部分数据已经或将要存放在DB/DW系统中。要是没有任何这样的系统耦合,DM系统就需要使用其他工具提取数据,使得很难将这种系统集成到信息处理环境中。因此,不耦合是一种很糟糕的设计。.松散耦合(loosecoupling):松散耦合意味着DM系统将使用DB或DW系统的某些

5、设施,从这些系统管理的数据库中提取数据,进行数据挖掘,然后将挖掘的结果存放到文件中,或者存放到数据库或数据仓库的指定位置。松散耦合比不耦合好,因为它可以使用查询处理、索引和其他系统设施提取存放在数据库或数据仓库中数据的任意部分。这带来了这些系统提供的灵活性、有效性等优点。然而,许多松散耦合的挖掘系统是基于内存的。由于挖掘本身不利用DB或DW提供的数据结构和查询优化方法,因此,对于大型数据集,松散耦合系统很难获得高度可伸缩性和良好的性能。.半紧密耦合(semitightcoupling):半紧密耦合

6、意味除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)的有效实现可以在DB/DW系统中提供。这些原语可能包括排序、索引、聚集、直方图分析、多路连接和一些基本的统计度量(如求和、计数、最大值、最小值、标准差等)的预计算。此外,一些频繁使用的中间挖掘结果也可以预计算,并存放在DB/DW系统中。由于这些中间挖掘结果或者是预计算,或者可以有效地计算,这种设计将提高DM系统的性能。.紧密耦合(tightcoupling):紧密耦合意味DM系统平滑地集成到D

7、B/DW系统中。数据挖掘子系统视为信息系统的一个功能组件。数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。随着技术进步,DM、DB和DW系统将进化和集成在一起,成为一个具有多种功能的信息系统。这将提供一个一致的信息处理环境。这种方法是高度期望的,因为它有利于数据挖掘功能、高系统性能和集成的信息处理环境的有效实现。有了这些分析,可以看出数据挖掘系统应当与一个DB/DW系统耦合。松散耦合尽管不太有效,也比不耦合好,因为它可以使用DB/DW的数据和系统设施。紧密

8、耦合是高度期望的,但其实现并非易事,在此领域还需要更多的研究。半紧密耦合是松散和紧密耦合之间的折衷。P30,31为什么要进行数据预处理?数据预处理的三种方式。答:概言之,现实世界的数据一般是脏的、不完整的和不一致的。数据预处理技术可以改进数据的质量,从而有助于提高其后的数据挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常、尽早的调整数据并规约待分析的数据将在决策过程得到高回报。P39数据清理的方法及其步骤。※P45数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。