数据挖掘概念与技术

数据挖掘概念与技术

ID:25581807

大小:296.00 KB

页数:34页

时间:2018-11-20

数据挖掘概念与技术_第1页
数据挖掘概念与技术_第2页
数据挖掘概念与技术_第3页
数据挖掘概念与技术_第4页
数据挖掘概念与技术_第5页
资源描述:

《数据挖掘概念与技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘概念与技术经济与工商管理学院邓克文 二零零九年九月第一课 分类一、数据挖掘及知识的定义1、数据挖掘定义:从大量数据中提取或“挖掘”知识;2、数据挖掘技术:分类、预测、关联和聚类等;3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示;4、知识定义:知识就是“压缩”-浓缩就是精华!1)OccamRazor:因不宜超出果之需!2)信息论:熵3)MDL准则:minimumdescriptionlength第一课 分类二、神经网络知识预备1、单层神经网络;2、多层神经网络。第一课 分

2、类三、SPSS软件及Logistic回归知识预备1、回归方法分类多个因变量(y1,y2,…yk)路径分析结构方程模型分析一个因变量y连续型因变量(y)---线性回归分析分类型因变量(y)---Logistic回归分析时间序列因变量(t)---时间序列分析生存时间因变量(t)---生存风险回归分析第一课 分类三、SPSS软件及Logistic回归知识预备2、回归方法适用前提1)大样本,样本量为自变量个数的20倍左右;2)因变量或其数学变换与自变量有线性关系;3)扰动项(误差项)符合正态分布;4)自变量间不

3、存在诸如多重共线性等关系;5)误差项方差不变;等等。。。。。。。。第一课 分类三、SPSS软件及Logistic回归知识预备3、Logistic回归方法介绍1)Logit变换Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P=0或P=1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一

4、个P的函数形式θ(P),使它在P=0或P=1附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用  来反映θ(p)是在P附近的变化是很适合的,同时希望P=0或P=1时,  有较大的值,因此取  =   ,即:第一课 分类三、SPSS软件及Logistic回归知识预备3、Logistic回归方法介绍2)Logistic回归设因变量是一个二分类变量,其取值为=1和=0。影响取值的个自变量分别为,则Logistic变换如下式表示:第一课 分类四、神经网络与Logistic回归优缺点对比1、神经网

5、络优缺点1)优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非     线性拟合,能容忍缺失值,异常值的出现等;2)缺点:“黑箱”过程导致知识结果难于解释。2、Logistic回归方法优缺点1)优点:线性回归方程的知识结果使得所获知识易于解释;2)缺点:数据类型要求高,回归方法成立前提多,只适用于线性拟合,缺失值,异常值会导致结果精确度大为下降。3、二者区别:硬计算与软计算,知识表达方式不同第二课 预测一、相关概念1、神经网络的“过拟合”现象1)“过拟合”指的是神经网络对训练集进行训练的过程中,无法

6、识别数据中的“噪音”,并且把“噪音”的影响毫无保留的存贮于网络参数(权重、偏置)中。“过拟合”会导致神经网络对测试集进行分类、预测时,产生不必要的偏差。2)解决“过似合”现象办法之一为N-fold交差验证。2、MSE、NMSE等概念的定义1)MSE:均方误差(注:与均方差的区别),其定义为误差平方和除以它的自由度。第二课 预测一、相关概念2)NMSE定义:注:此处的方差  为样本总体方差。NMSE的物理意义为标准化的MSE。第二课 预测二、预测实验1、实验目的:1)理解分类与预测区别2)熟练使用神经网络

7、软件NeuroSolutions解决预测问题。3)学会运用灵敏度分析,对属性进行灵敏度测量。4)学会通过多次训练模型,避免模型停止在局部最优。2、实验原理1)神经网络方法原理2)多元线性统计方法原理(注意什么是线性,其内涵是什么?)第三课 聚类分析一、聚类分析定义、特征、应用及评估1、定义:将物理或抽象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。1)聚类的方法类型(1)划分方法:K-平均和K-中心算法;(2)层次方法:系统聚类;(3)基于密度方法:种类较多,对发现数据“噪音”有优势;(4)基

8、于网格方法:小波聚类为典型,效率高,复杂度低;(5)基于模型方法:统计学中的分类树方法-利用信息熵、贝叶斯统计原理为分类原则、竞争学习与自组织特征图。第三课 聚类分析一、聚类分析定义、特征、应用及评估2、聚类与分类的区别1)聚类所要划分的类未知,而分类要划分的类已知;2)聚类不依赖预先定义的类和带类标号的训练实例,因此它是观察式的学习,而不是示例学习;3)聚类的有监督与分类的无监督的区别。3、聚类分析的应用:是一种重要的数据挖掘方法,广泛应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。