商务数据挖掘介绍(教授制作)ln6

商务数据挖掘介绍(教授制作)ln6

ID:5407567

大小:755.50 KB

页数:43页

时间:2017-11-10

商务数据挖掘介绍(教授制作)ln6_第1页
商务数据挖掘介绍(教授制作)ln6_第2页
商务数据挖掘介绍(教授制作)ln6_第3页
商务数据挖掘介绍(教授制作)ln6_第4页
商务数据挖掘介绍(教授制作)ln6_第5页
资源描述:

《商务数据挖掘介绍(教授制作)ln6》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Logistic回归李保坤老师西南财经大学统计学院本节内容提要Logistic回归模型关于Odds和OddsRatioLogistic回归模型的解释参数估计假设检验使用SAS的一个例子Logistic回归模型模型关系的一边是一系列的变量xi二元变量(是/否)类别变量(社会等级,...)连续变量(年龄,...)另一边是二元变量Y二元输出是商业,生物学和流行病学中经常出现的情况Logistic回归模型表1年龄(Age)和冠心病(CD)发病情况Logistic回归模型比较病人和非病人的平均年龄非病人:38.6岁病人:58.7岁能不

2、能用线形回归?表1数据的散点图冠心病症状年龄Logistic回归模型表2按年龄组划分的冠心病发病情况年龄组人数冠心病人数累积%表2数据的散点图年龄组病人百分数Logistic回归模型x得病概率转换logitofP(y

3、x){a=非感染区疾病的概率比对数(logodds)b=感染区疾病的概率比对数的单位变化率eb=概率比变化率关于Odds和OddsRatio例子:在一个具有17个家庭的样本里,共有3家的收入为¥10000,5家的收入为¥11000,9家的收入为¥12000。在收入为¥10000的家庭里,1个主妇不工作,2个主妇

4、工作;在收入为¥11000的家庭里,1个主妇不工作,4个主妇工作;在收入为¥12000的家庭里,1个主妇不工作,8个主妇工作。收入主妇工作状况总计0(不工作)1(工作)101112111248359总计31417关于Odds和OddsRatio主妇工作的Odds收入主妇工作状况工作的Odds0(不工作)1(工作)1011121112482/1=24/1=48/1=8关于Odds和OddsRatio用收入为¥11000家庭的主妇工作的Odds除以收入为¥10000家庭的主妇工作的Odds,我们会得到4/2=2。用收入为¥120

5、00家庭的主妇工作的Odds除以收入为¥11000家庭的主妇工作的Odds,我们得到8/4=2。注意:当收入增加1个单位(¥1000)工作的Odds增加到原来的2倍。OddsRatio=2在这个例子中,我们把收入每增加1个单位,主妇工作的Odds增加到原来的2倍。Logistic回归模型的解释可以把结果变量Y看作一个贝努里实验,E(Y)=ππ是每一个实验成功的概率π的值在0和1之间Logistic回归模型的解释多元线性回归模型不适合用于二元结果变量,因为线性回归模型假定结果变量可以取任意值,而事实上只能取0到1之间的数值.这

6、时我们使用Logistic回归模型Logistic回归模型的解释这个比率被称作概率比(odds),它是π的函数Logistic回归模型的解释对于只有一个预测变量的情况:X每增加1,odds增加eβLogistic回归模型的解释Logistic回归模型的解释因此,eβ是OddsRatioeβ=1,对应的是β=0,它表示对应的预测变量x和结果变量y没有关系Logistic回归模型的解释对于只有一个预测变量x,使用样本数据得到模型:π的估计为参数估计线形回归:最小二乘Logistic回归:极大似然估计似然函数估计参数a和b通常使用

7、对数似然函数更为简单参数估计:最大似然估计参数估计:最大似然估计参数估计:最大似然估计牛顿-纳逊方法,Newton-Raphson参数估计:最大似然估计变量编码名义变量或有序变量:烟草消费:无=0,灰烟=1,棕色烟=2,金黄烟=3最好使用指示变量(即虚拟变量)x1,x2,x3如果是灰烟,x1=1,x2=0,x3=0如果是棕色烟,x1=0,x2=1,x3=0如果是金黄烟,x1=0,x2=0,x3=1如果不抽烟,x1=0,x2=0,x3=0编码可消除对吸烟变量各个类别的人为分层影响,且不需要进行任何假定假设检验问题包括某预测变量

8、的模型是否比不包括这一变量的模型提供结果变量的更多信息?三种检验似然比统计量Wald检验Score检验假设检验检验这一假设的检验统计量是卡方统计量。常用的有3种假设检验Wald检验似然比检验Score检验关于模型差异的假设检验比较两个嵌入模型(nestedmodels)Log(odds)=+1x1+2x2+3x3+4x4(模型1)Log(odds)=+1x1+2x2(模型2)似然比统计量:-2log(模型2似然函数/模型1似然函数)=-2log(模型2似然函数)减去-2log(模型1似然函数)似然比统计量服从

9、2分布,DF=模型参数个数之差拟和优度m=x变量的水平数,(对冠心病的例子m=5)ni=x变量第i水平的观测记录数K=参数的数量(对冠心病的例子k=2)拟和优度对于连续型预测变量,我们需要Hosmer-Lemshow拟和优度检验Hosmer-Lemshow统计量计算拟和优度时把自变量的范

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。