外文文献及翻译什么是数据挖掘

外文文献及翻译什么是数据挖掘

ID:47208296

大小:43.00 KB

页数:5页

时间:2019-08-25

外文文献及翻译什么是数据挖掘_第1页
外文文献及翻译什么是数据挖掘_第2页
外文文献及翻译什么是数据挖掘_第3页
外文文献及翻译什么是数据挖掘_第4页
外文文献及翻译什么是数据挖掘_第5页
资源描述:

《外文文献及翻译什么是数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、什么是数据挖掘?简单地说,数据挖掘是从大量的数据中提取或“挖掘”知识。该术语实际上有点儿用词不当。注意,从矿石或砂子中挖掘黄金叫做黄金挖掘,而不是叫做矿石挖掘。这样,数据挖掘应当更准确地命名为“从数据中挖掘知识”,不幸的是这个有点儿长。“知识挖掘”是一个短术语,可能它不能反映出从大量数据中挖掘的意思。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量金块这一过程的特点。这样,这种用词不当携带了“数据”和“挖掘”,就成了流行的选择。还有一些术语,具有和数据挖掘类似但稍有不同的含义,如数据库中的知识挖掘、知识提取、数据/模式分

2、析、数据考古和数据捕捞。许多人把数据挖掘视为另一个常用的术语—数据库中的知识发现或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现的过程由以下步骤组成:1)数据清理:消除噪声或不一致数据,2)数据集成:多种数据可以组合在一起,3)数据选择:从数据库中检索与分析任务相关的数据,4)数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作,5)数据挖掘:基本步骤,使用智能方法提取数据模式,6)模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式,7)知识表示:使用可视化和知识表示技术,向用户提供

3、挖掘的知识。数据挖掘的步骤可以与用户或知识库进行交互。把有趣的模式提供给用户,或作为新的知识存放在知识库中。注意,根据这种观点,数据挖掘只是整个过程中的一个步骤,尽管是最重要的一步,因为它发现隐藏的模式。我们同意数据挖掘是知识发现过程中的一个步骤。然而,在产业界、媒体和数据库研究界,“数据挖掘”比那个较长的术语“数据库中知识发现”更为流行。因此,在本书中,选用的术语是数据挖掘。我们采用数据挖掘的广义观点:数据挖掘是从存放在数据库中或其他信息库中的大量数据中挖掘出有趣知识的过程。基于这种观点,典型的数据挖掘系统具有以下主要成分:数据库、数据仓库

4、或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。数据库、数据仓库服务器:根据用户的数据挖掘请求,数据库、数据仓库服务器负责提取相关数据。知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其他例子有兴趣度限制或阈值和元数据(例如,描述来自多个异种数据源的数据)。数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用

5、于特征化、关联、分类、聚类分析以及演变和偏差分析。模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚集在有趣的模式上。它可能使用兴趣度阈值过滤发现的模式。模式评估模块也可以与挖掘模块集成在一起,这依赖于所用的数据挖掘方法的实现。对于有效的数据挖掘,建议尽可能深地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上。图形用户界面:本模块在用户和数据挖掘系统之间进行通信,允许用户与系统进行交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。此外,此成分还允许用户浏览数据

6、库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式进行可视化。从数据仓库观点,数据挖掘可以看作联机分析处理(OLAP)的高级阶段。然而,通过结合更高级的数据理解技术,数据挖掘比数据仓库的汇总型分析处理走得更远。尽管市场上已有许多“数据挖掘系统”,但是并非所有系统的都能进行真正的数据挖掘。不能处理大量数据的数据分析系统,最多是被称作机器学习系统、统计数据分析工具或实验系统原型。一个系统只能够进行数据或信息检索,包括在大型数据库中找出聚集的值或回答演绎查询,应当归类为数据库系统,或信息检索系统,或演绎数据库系统。数据挖掘涉及多学科技术

7、的集成,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析。在本书讨论数据挖掘的时候,我们采用数据库的观点。即,着重强调在大型数据库中有效的和可伸缩的数据挖掘技术。一个算法是可伸缩的,如果给定内存和磁盘空间等可利用的系统资源,其运行时间应当随数据库大小线性增加。通过数据挖掘,可以从数据库提取有趣的知识、规律或者高层信息,并可以从不同的角度来观察或浏览。发现的知识可以用于决策、过程控制、信息管理、查询处理,等等。因此,数据挖掘被信息产业界认为是数据库系统最重要的前沿之一,是信息产

8、业中最有前途的交叉学科。数据挖掘是一个交叉学科的领域,受到多个学科的影响,包括数据库系统、统计学、机器学习、可视化和信息科学。此外,依赖于所用的数据挖掘方法,以及可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。