数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt

数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt

ID:50456152

大小:662.50 KB

页数:33页

时间:2020-03-09

数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt_第1页
数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt_第2页
数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt_第3页
数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt_第4页
数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt_第5页
资源描述:

《数据挖掘原理与SPSS Clementine应用宝典 第2章 从数理统计到数据挖掘 课件 .ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章从数理统计到数据挖掘2.2数理统计与数据库技术的结合2.3回归分析的基本概念2.4线性回归方程2.5线性相关的显著性检验2.1数理统计与数据挖掘的关系2.7多元线性回归分析2.8一般情况下的回归分析2.9逐步回归分析的软件设计2.10锻模设计准则的制定2.6非线性回归分析第2章从数理统计数据挖掘2.1数理统计与数据挖掘的关系数理统计和数据挖掘有着共同的目标,即发现数据中的结构。但数据挖掘不是数统计的分支,因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很

2、大不同。因而需要逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。第2章从数理统计数据挖掘2.1.1数理统计的性质试图为数理统计下一个太宽泛的定义是没有意义的,数理统计是一门比较保守的学科,目前有一种趋势是越来越精确。数学背景和追求精确加强了这样一个趋势,即在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。第2章从数理统计数据挖掘2.1.2数据挖掘的性质计算机使得传统统计模型的视野大大地扩展了,还促进了新工具的飞速发展。数理统计很少会关注实时分析,然而数据挖掘问题常常需要这些,数据挖掘者也不可持完全

3、非统计的观点,尽管数理统计主要关注的是分析定量数据,数据挖掘的多来源意味着还需要处理其它形式的数据。特别地,逻辑数据越来越多。第2章从数理统计数据挖掘2.1.3从数理统计到数据挖掘数据挖掘有时候不是一次性的实验,尽管数据集是确定的,它更应该被看作是一个不断迭代的过程。从一个角度检查数据可以解释结果,以相关的观点检查可能会更接近规律。关键是,极少情形会知道哪一类模式是有意义的。数据挖掘的本质是发现非预期的模式-同样非预期的模式要以非预期的方法来发现。第2章从数理统计数据挖掘从数理统计到数据挖掘数据挖掘不能替代传统的统计分析技术,相反,它是统计分析

4、方法学的延伸和扩展。数据挖掘算法有些本来就是统计的方法,数据挖掘仍然是计算机行业的一个方向,而不是广义统计的一部分。同时,对于数据挖掘算法中来自机器学习和人工智能的一部分,其核心是规则,而规则内部的获得机制虽然是基于数理统计的,但是这种技术本身已经不属于统计了。第2章从数理统计数据挖掘2.2数理统计与数据库技术的结合数据挖掘技术从一开始就是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观及宏观的统计、分析、综合和推理,用以指导实际问题的求解,力图发现事物间的相互联系,甚至可利用已有的数据对未来的活动进行预测。数理统

5、计是数学中最重要、最活跃的学科之一,然而它和数据库技术结合得并不算快,但一旦有了从数据查询到知识发现、从数据演绎到数据挖掘的要求,则数理统计就会获得新的生命力。数理统计作为数据挖掘的3个主要支柱之一,有许多寻找变量之间规律性的方法,而回归分析方法是其中最有效的方法之一。第2章从数理统计数据挖掘2.3回归分析的基本概念变量之间的关系可分为两类:一类是确定性的关系,也就是通常所说的函数关系;另一类是非确定性的关系,变量之间的这种非确定性关系称为相关关系。设有两个变量X和Y,其中X是可以精确测量或控制的非随机变量,而Y是随机变量,X的变化将使Y发生相

6、应的变化,但它们之间的变化关系是不确定的,若当X取得任一可能值x时,Y相应地服从一定的概率分布,则称随机变量X与变量Y之间存在相关关系。第2章从数理统计数据挖掘设进行次独立的试验,测得试验数据如下表……其中及分别是变量X与随机变量Y在第i次试验中的观测值。取X=x时随机变量Y的数学期望时的估计值,即显然,当变化时,是的函数,记作于是,可以用一个确定的函数关系式(2-1)(2-2)(2-3)第2章从数理统计数据挖掘回归分析大致地描述与之间的相关关系,函数称为关于的回归函数,方程(2-3)称为关于的回归方程。回归方程反映了的数学期望E(Y)随的变化

7、而变化的规律性。在确定了函数的类型后,就可以设其中为未知参数。于是,上述问题就归结为:如何根据试验数据合理地选择参数的估计值使方程在一定的意义下“最佳地”表现与之间的相关关系。解决上述问题的方法,可以利用最小二乘法。第2章从数理统计数据挖掘回归分析2.4线性回归方程为了便于确定回归函数中未知参数的值,首先讨论变量与之间存在线性相关关系的情形。设变量与之间存在线性相关关系,则由试验数据得到的点将散布在某一直线周围。于是,可以用线性方程大致地描述变量与之间的关系。设随机变量按最小二乘法确定未知参数及时,有偏差平方和为了使S取得最小值,分别求对及的偏

8、导数,并令它们等于零,得方程组第2章从数理统计数据挖掘整理得解方程组得上式中其中观测值的样本方差;第2章从数理统计数据挖掘线性回归方程为了以后进一步分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。