商务数据挖掘介绍(教授制作)ln7

商务数据挖掘介绍(教授制作)ln7

ID:5407563

大小:850.50 KB

页数:54页

时间:2017-11-10

商务数据挖掘介绍(教授制作)ln7_第1页
商务数据挖掘介绍(教授制作)ln7_第2页
商务数据挖掘介绍(教授制作)ln7_第3页
商务数据挖掘介绍(教授制作)ln7_第4页
商务数据挖掘介绍(教授制作)ln7_第5页
资源描述:

《商务数据挖掘介绍(教授制作)ln7》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、判别分析贝叶斯判别(Procdiscrim)判别分析变量选择(Procstepdisc)典型判别(Proccandisc)节选自谢小燕教授课件判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。讲课提纲假设贝叶斯判别分类变量选择典型判别分类假设条件样本大小:我们

2、先把数据按结果变量的类别划分到几个组里,在各组样本上数据量大小不同是允许的,在最小组的样本数据量至少要超过预测变量数。经验法则要求最小组的样本数据量应为预测变量数的4~5倍。假设条件正态分布:在此假设数据服从多元正态分布。这可以通过频率分布的直方图看出来。然而,违反正态分布的假设不是“致命”的,只要非正态是由偏态而不是由界外点引起的,结果给出的显著性检验依然可靠(TabachnickandFidell1996).假设条件方差齐性:判别分析对协方差矩阵的非齐性(heterogeneity)非常敏感。在接收一项重要研究的最终结果之前,需要审察一下几个组内方差和相关系

3、数矩阵。方差齐性是通过散点图进行评价,并通过变量转换进行校正。假设条件异常值:判别分析对于异常值非常敏感。对每一个组进行单变量或多变量异常值检验,如果有的话进行转变或删除。如果研究数据中一个组包含极端异常值,会对均值产生影响以及增加方差。对参数的显著性检验基于混合方差,即所有组的平均方差。因此相对较大的均值(和较大方差)的显著性检验会基于较小的混合方差,会导致错误。假设条件无多重共线性:如果其中一个自变量跟其它的变量高度相关,或者就是其它变量的函数,判别分析将难以给出唯一解,因此要求自变量之间的多重共线性很低。当自变量相关时,标准化后的判别函数系数将不能可靠地给

4、出预测变量的相对重要性。ClassificationwithBayesianRule设有k个类别,具有概率密度函数。并且根据以往的统计分析,知道出现的概率为。即当样本发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:判别规则则判给。在正态的假定下,为正态分布的密度函数。则判给。上式两边取对数并去掉与i无关的项,则等价的判别函数为:特别,总体服从正态分布的情形问题转化为若,则判。当协方差阵相等则判别函数退化为令问题转化为若,则判。令问题转化为若,则判。【定义】(平均错判损失)用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。C(j/i)表示相

5、应错判所造成的损失。则平均错判损失为:使ECM最小的分划,是Bayes判别分析的解。【定理】若总体G1,G2,,Gk的先验概率为且相应的密度函数为,损失为则划分的Bayes解为其中含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失然后比较其大小,选取其中最小的,则判定样品属于该总体。datafish(drop=HtPctWidthPct);title'FishMeasurementData';inputSpeciesWeightLength1Length2Length3HtPctWidthPct@@;He

6、ight=HtPct*Length3/100;Width=WidthPct*Length3/100;formatSpeciesspecfmt.;datalines;procdiscrimdata=fishlistlisterr;classSpecies;priorsprop;run;§2变量选择和逐步判别变量的选择是判别分析中的一个重要的问题,变量选择是否恰当,是判别分析效果有列的关键。如果在某个判别问题中,将起最重要的变量忽略了,相应的判别函数的效果一定不好。而另一方面,如果判别变量个数太多,计算量必然大,会影响估计的精度。特别当引入了一些判别能力不强的变量时

7、,还会严重地影响判别的效果。设有n样品,分别来自k个类G1,G2,┅,Gk其中ni个来自Gi,一 变量组间差异的显著检验样品分别为:即,p个指标对G1,G2,┅,Gk无区别能力;p个指标对G1,G2,┅,Gk有区别能力。当比值很小,类内的离差平方和在总离差平方和中所占比率小,则类间的离差平方和所占比重大。在原假设为真的条件下,服从维尔克斯分布。p个指标对G1,G2,┅,Gk有强的区别能力,拒绝原假设。接受原假设;二 变量增减对区分类别效果的检验在回归分析中,变量的好坏直接影响回归的效果。在判别分析中也有类似的问题。如果在某个判别分析问题中,将其中最主要的指标忽略

8、了。判别效果一定不会好。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。