判别分析的数据挖掘研究

判别分析的数据挖掘研究

ID:868416

大小:122.03 KB

页数:21页

时间:2017-09-21

判别分析的数据挖掘研究_第1页
判别分析的数据挖掘研究_第2页
判别分析的数据挖掘研究_第3页
判别分析的数据挖掘研究_第4页
判别分析的数据挖掘研究_第5页
资源描述:

《判别分析的数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕设报告学院:自动化学院判别分析的数据挖掘研究本题目应完成以下工作:理清逐步判别分析方法的数学原理,编写出相应的算法程序。成果形式为完成的毕业论文与模型试验。【摘要】:在使用判别分析进行数据处理时,对判别能产生影响的变量往往很多,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当筛选变量的问题就成为一个很重要的事情。逐步判别法就是一种具有筛选变量能力的判别分析方法。本课题旨在廓清逐步判别分析方法,并在明晰该方法数学原理的基础上,编制出逐步判别分析方法的计算程序。运用逐步判别分析原理,

2、在多个评价因子中按其对数据挖掘判别能力贡献的大小进行筛选,从而确定主要的评价因子。应用改进的层次分析法对筛选后的评价因子进行赋权,使求得的判断矩阵满足一致性要求,避免了层次分析法后期检验过程中多次调整判断矩阵带来的过于主观性的问题。在评价因子的筛选和赋权的基础上进行了单沟泥石流危险度评价的实例验证,结果表明,运用逐步判别分析法筛选后的评价因子客观、准确地反映了当地泥石流危险度的影响因素,与传统方法所得危险度结果相比更符合泥石流危险度实际情况,可靠性更强。用汉字Foxbase开发一个操作界面好、通用性强的逐步判别分析计算程序.第二章逐步判别分析法1.判别分析问题的提出判别

3、分析是一种用于分析组间差异的多元分析法,用判别分析可以研究针对多个变量的两组或多组的差异,以回答如下类型的问题:1)各组相对各变量是否有显著差异?2)哪些变量适合或不适合用于区分各组?使用判别分析要求拥有元素的判别变量及其属性的相关数据。判别分析,同回归分析或方差分析一样,属于结构检验法的范畴。元素的判别变量必须是基数测度的,而组的属性可由名义测度变量(分组变量)表示。因此,判别分析在形式上可看做是一种分析一个名义测度变量与几个基数测度的变量间相关性的方法。1.1判别分析的基本思想有时我们会遇到包含属性被解释变量和几个度量解释变量的问题,这时需选择合适的分析方法。而当被

4、解释变量是属性变量而解释变量是度量变量时,判别分析是合适的统计分析方法。判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法。在现实世界中,经常会遇到需要判别的问题。例如,根据人均国民收入,人均工农业产值,人均消费水平等多种指标来判定一个国家的经济发展程度所属类型。在对教师的课堂教学质量进行评价中,根据教学效果、能力培养、教学目的和要求、教学方法等指标来评判一个教师的课堂教学水平所属等级。在医疗诊断上,一个病人肺部有阴影,大夫要根据阴影大小、阴影部位、是否有痰、是否有低烧等多项指标来判断病人是患肺结核、肺部良性肿瘤还是肺癌。判别分析所要解决的问题是,在一些已知

5、研究对象用某种方法已分成若干类的情况下,确定新的观测数据属于已知类别中的哪一类。判别分析方法处理问题时,通常要给出一个衡量新样品与已知各类别接近程度的描述指标,即判别函数,同时也指定一种判别规则,即以判定新样品的归属。判别规则可以是统计性的,决定新样品所属类别时用到数理统计的显著性检验;也可以是确定性的,决定样品归属时,只考虑判别函数值的大小。1.2判别分析的分类判别分析按判别的组数来分,有两组判别分析和多组判别分析;在很多情况下,被解释变量包含两组或者两类,比如,雄性与雌性、高与低。另外,有多于两组的情况,比如低、中、高的分类。判别分析能够解决两组或者更多组的情况。当

6、包含两组时,称作两组判别分析。当包含三组或者三组以上时,称作多组判别分析。按区分不同总体所用的数学模型来分,有线性判别和非线性判别;按判别对所处理的变量方法不同,有逐步判别、序贯判别等;按判别准则不同,有距离判别、贝叶斯判别(Bayes)、费歇(Fisher)判别等。判别分析在教育评价中可用于判断学校的等级,进行人才类型的评价等方面。判别分析有二级判别、多级判别、逐步判别等多种方法。在气候分类、农业区划、土地类型划分中有着广泛的应用。1.3判别分析的假设条件判别分析最基本的要求是:分组类型在两组以上;在第一阶段工作时每组案例的规模必须至少在一个以上。解释变量必须是可测量

7、的,才能够计算其平均值和方差,使其能合理的应用于统计函数。与其他多元线性统计模型类似,判别分析的假设之一是每一个判别变量(解释变量)不能是其他判别变量的线性组合。这时,为其他变量线性组合的判别变量不能提供新的信息,更重要的是在这种情况下无法估计判别函数。不仅如此,有时一个判别变量与另外的判别变量高度相关、或与另外的判别变量的线性组合高度相关,虽然能求解,但参数估计的标准误差将很大,以至于参数估计统计上不显著。这就是通常所说的多重共线性问题。判别分析的假设之二,是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数,它们

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。