Statistics and Data Mining

Statistics and Data Mining

ID:40403576

大小:332.83 KB

页数:22页

时间:2019-08-01

Statistics and Data Mining_第1页
Statistics and Data Mining_第2页
Statistics and Data Mining_第3页
Statistics and Data Mining_第4页
Statistics and Data Mining_第5页
资源描述:

《Statistics and Data Mining》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、统计学与DataMining中华资料采矿协会理事长辅仁大学统计资讯学系教授谢邦昌教授、摘要:本文首先回顾统计学理论体系的形成和发展,重点探讨EDA之后,统计研究思路的转型。伴随着信息技术的发展,传统统计学的理论和方法,需要新的表现形式。最后,根据统计学和资料采矿可能的结合点,展望统计学和资料采矿的未来。关键词:统计学;资料采矿;信息技术前言在信息飞速发展的时代,软件的运算效率大幅提高,硬件的数据处理速度不断更新,大量数据的存取、查询、描述统计等技术已日臻完善。与此同时,由于高层的决策分析、知识发现等的相对滞

2、后,导致了“信息爆炸”但“知识贫乏”的现象,资料采矿(DataMining,简称DM)概念的诞生。Fayyad,Piatetsky-Shapiro和Smyth于1997年指出:知识发现(KnowledgeDiscoveryfromDatabases,简称KDD)是从数据库中发现知识的全部过程,数据采矿则是此过程中的关键步骤。一般认为,资料采矿是从大量的、不完全、有噪声的、模糊的、随机的实际数据中,提取隐含在数据中的,人们事先不知道的,但又是潜在有用的知识的技术和过程。数据采矿因其巨大的商业前景,现已成为国际

3、上数据库和信息决策领域最前沿的研究方向之一,并引起了学术界和工业界的广泛关注。统计学是搜集、展示、分析、及解释资料的科学。数据采矿的大部分核心功能的实现都以统计分析方法作为支撑。这些核心方法体现在数据采矿的五大核心功能之中:聚类、估计、预测、关联分组以及分类等。从国际上来看,资料采矿的研究重点也逐渐从最初的提出概念和发现方1法,转向系统应用方面。在应用方面,由于过分强调软件和模型的作用,缺乏系统、科学的理论体系的指导,也使应用数据采矿技术陷入一些困境。本文首先回顾统计学理论体系的形成和发展,重点探讨EDA之

4、后,统计研究思路的转型。伴随着信息技术的发展,传统统计学的理论和方法,需要新的表现形式。最后,根据统计学和资料采矿可能的结合点,展望统计学和资料采矿的未来。统计数据分析在计算机时代的应用许多一些我们所熟悉的统计方法中,例如假设检定、线性回归分析、变异数分析,以及最大概似估计方法等等。这些统计方法都是利用机械式的计算器来设计执行的,而现在的电子计算器可以帮助我们发展出一些新的统计方法,对于分配假设的限制并不像传统的分配假设那样的多,而且可以应用到更多更复杂的统计估计式。这些方法给予了一些科学家去探究以及描述资

5、料,而且推导出有确实根据的统计推论。一个很重要的原因是传统的数学分析方法被计算机算法所取代,但是传统的数学观念及基础并不会因为计算机的快速发展而从统计理论当中消失。对于统计推论算法的正确性及有效性,数学仍然是最主要的分析方法。大多数的科学家在面对资料分析的问题时,都会问“我该收集什么数据”,“从数据中我可以下什么结论”或是“对于结果,我可以相信多少”等等之类的问题。其实统计学是一门数学的科学,它是用来处理类似这些的问题。处理问题所用的一些统计方法例如假设检定、线性回归分析、标准误及信赖区间等等,这些都是我们

6、在科学上所熟悉的统计方法。许多传统的统计方法是发展于1920年到1950年之间,而在这些期间的统计学家包括了R.A.Fisher,J.Neyman及H.Hoteling等等。到了1980年代,因为计算机的快速发展,2使得统计的理论以及新的统计方法论受到计算机有很震撼的影响。在这篇文章中,我将叙述在计算机应用上一些发展不错的统计方法论,包括了bootstrapmethod,nonparametricregression,generalizedadditivemodels及classificationandre

7、gressiontrees。文章中我们主要是在叙述,而并没有提到太多数学的发展,然而我也将试当来表示出数学所扮演的重要性角色在一些新的统计方法上。(一)TheBootstrap统计资料分析的基础是建立在datasetX中。我们去计算一个统计量t(X),目的是为了对有兴趣的数量做估计。如在Box1中有一笔9位男性胆固醇减少的分数,这些分数是从164位男性的分数中随机抽出且经过了排序。所以datasetX中有9个分数,而t(x)=x−21.0+3.25+10.75+13.75+32.50+39.50+41.75

8、+56.75+80.0x=9=28.583x=28.58所代表的意思是指对于实际胆固醇减少的分数之估计值(而实际值的获得是假设我们从很多的scores中所观察得到的)。那么t(x)是如何的准确呢?简单的来说,假如t(x)是x1,,xn的平均数x,则x的标准差(root-mean-square-error)可以表示成1n22∑(xi−x)i=1------------------------(1)se

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。