数据挖掘与数据库知识发现.统计学的观点

数据挖掘与数据库知识发现.统计学的观点

ID:37613747

大小:178.51 KB

页数:13页

时间:2019-05-26

数据挖掘与数据库知识发现.统计学的观点_第1页
数据挖掘与数据库知识发现.统计学的观点_第2页
数据挖掘与数据库知识发现.统计学的观点_第3页
数据挖掘与数据库知识发现.统计学的观点_第4页
数据挖掘与数据库知识发现.统计学的观点_第5页
资源描述:

《数据挖掘与数据库知识发现.统计学的观点》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第19卷 第1期工 程 数 学 学 报Vol.19No.12002年02月Feb.2002JOURNALOFENGINEERINGMATHEMATICS文章编号:100523085(2002)0120001213X数据挖掘与数据库知识发现:统计学的观点马江洪, 张文修, 徐宗本(西安交通大学理学院,西安710049)摘 要:数据挖掘和数据库知识发现是当前国际科技界的一个研究热点。这是一个介于统计学、模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新兴学科,具有极为广泛的应用前景。从统计学的角度来透视其中相关的统计问题,提出了传统统计学面临的挑战,以及在这个领域将

2、带来的一些新的研究方向。关键词:数据挖掘;统计学;数据库;知识发现分类号:AMS(2000)62B10;62P30中图分类号:O212.1TP391文献标识码:A1 引 言随着计算机技术和电子数据获取方面的不断进展以及因特网和各种局域网的广泛普及,人们获得的数据正以前所未有的速度急剧增加,最近几十年产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域。例如,美国著名零售商MalMart每天要做2千万次交易;美国电报电话公司AT&T每天有1亿多14用户在远程网络上呼叫2亿多次;美孚石油公司计划存贮的有关石油开采数据将达10字节;美国国家宇航

3、局NASA的地球观测系统每小时产生5万兆字节的数据;人类基因组计划也已收集了几千兆个相关数据。在这个充满数据的数字化、信息化时代,如此规模甚至更大的数据库将是人们不得不面对的一个越来越突出的问题。我们知道,数据库作为一种资源,本身并没什么直接的价值,有价值的是从中抽取到的知识和信息。但是,与这种巨大的“海量”数据相比,人们分析处理它们的能力以及从中获取知识的能力都存在着相当大的差距,形成所谓“数据过剩”而又“信息匮乏”的被动局面。那么,如何从这些大型数据库中发现有用的信息、模式和知识?如何开发有效的挖掘方法?已成为众多科技工作者共同关注的焦点。在过去几年,一个称为“数据挖掘”和“数据

4、库知识发现”(DataMining&KnowledgeDiscoveryinDatabase,简称DM&KDD)的新领域得到了快速发展,这是一个介于统计学、模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新学科,已在经济、商业、金融、天文等行业得到了成功的应用,在国际上掀起了一股空前的研究热潮(即,所谓的“数据淘金潮”)。我国学者在这个领域也已开展了很多研究,但涉及的人员主要来自计算机科学及相关领域,其它专业的研究者相对较少,究其原因可能是由于学科相隔、交流X收稿日期:2001210220.作者简介:马江洪(1963年1月生),男,博士,副教授.研究方向:稳健统

5、计和数据挖掘.基金项目:国家自然科学基金资助项目(40101021).©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.2工 程 数 学 学 报              第19卷不够所致。本文作者从1998年开始接触这个领域并被其蕴涵的统计学问题、独特的思想方法以及广泛的应用前景所吸引,因而阅读了不少相关的文献,1999年初形成了本文的初稿并在小范围内进行了交流。本文就是在此基础上经进一步充实、修改完成的。这里,我们并不试图对数据挖掘作一全面介绍,而只是希望从统计学的观点出发,着重论述数据挖掘中相关的统计学

6、问题、传统统计学面临的挑战问题以及这个领域将带来的一些研究方向。全文的第2节说明数据挖掘的主要特点,第3节介绍数据挖掘的统计学方法与其它有关方法,第4节论述统计学与数据挖掘的联系,第5节简要描述统计学和数据挖掘相关的一些软件及应用,第6节是数据挖掘的研究方向及统计学可能提供的解决方案。2 数据挖掘及其显著特点简单地说,KDD就是把数据转化为信息、把信息转化为决策的一个交互迭代的过程。文[1]把KDD定义为“从数据中识别那些有效、新颖、潜在有用、最终可理解模式的一个复杂过程”,而把数据挖掘看作这个过程中的一个特殊步骤,是运用统计学、人工智能等方法(或算法)发现模式和规律、发现有价值的关

7、系或知识的一个阶段,其它步骤包括:数据仓储、目标数据选择、清洗、预处理、变换和缩减、模型选择、评价和解释、知识证实和使用等(如图1所示)。这个定义中所指的“模式”已超出其传统意义,包括了数据中的模型或结构。应该说,这个过程的大部分步骤都是统计学家所熟悉的。从数据中找有用的模式在不同的领域有不同的名称,比如,类似的名称有知识提取、信息发现、信息获取、数据考古、数据模式处理等。由于数据挖掘对于KDD的重要性,目前大多数KDD的研究都集中在数据挖掘的算法和应用上

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。