商务数据挖掘介绍(教授制作)ln4

商务数据挖掘介绍(教授制作)ln4

ID:5407562

大小:1.25 MB

页数:41页

时间:2017-11-10

商务数据挖掘介绍(教授制作)ln4_第1页
商务数据挖掘介绍(教授制作)ln4_第2页
商务数据挖掘介绍(教授制作)ln4_第3页
商务数据挖掘介绍(教授制作)ln4_第4页
商务数据挖掘介绍(教授制作)ln4_第5页
资源描述:

《商务数据挖掘介绍(教授制作)ln4》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、多元线性回归李保坤老师西南财经大学统计学院本节内容提要多元线性回归模型参数估计统计推断变量选择变量转换残差分析多元回归需考虑的其它方面多元线性回归模型这种模型要解决的问题里通常有几个预测变量和结果变量y有关系;描述这一关系的线性模型是:多元线性回归模型参数被称为回归系数β0代表截距β1代表在其它预测变量保持不变的情况下,x1增加1对应的y的变化量对的解释与β1类似多元线性回归模型当只有一个预测变量时,该数据可以用一个2维的散点图表示如果有k个预测变量和一个结果变量y,就需要(K+1)维的散点图表示每一个变量代表一维多元线性回归模型:假设条件假设条件:εi是随机

2、误差,εi独立同分布于N(0,σ2);参数未知这意味着相互独立服从正态分布N(μi,σ2)使用统计软件计算模型系数和统计量2.诊断是否有违反假设条件的情况发生,如果有,需要弥补这些缺陷3.察看模型统计量评价模型是否拟和得好以及是否有用4.如果模型通过评价,需要用模型对系数加以解释并产生预测值多元线性回归的步骤参数估计(最小二乘法)目标是最小化解下列方程组:得到:参数估计(最小二乘法)线性模型可以表示为参数估计:几个平方和误差平方和:SSE总平方和:SST回归平方和:SSR决定系数(R2)Y变化量被模型解释的百分数较高的R2意味着y变化量的大部分归因于x的变化-

3、这是我们期望的特性在简单回归里,R2越高数据点更紧密地排列在一条直线旁边多大的R2算高,这要具体情况具体分析回归分析者喜欢关注,但这种做法有问题。关注回归模型的“合理性”非常重要不应该只是为了得到虚高的R2而把和Y不相干的x变量包括到模型里决定系数(R2)方差分析表(AVOVA)来源模型误差汇总在此方差分析表(AVOVA)F-统计量是检验以下统计假设的统计量检验统计量F是具有k和n-1自由度的F分布F值大表明零假设是错误的判定零假设对错的标准是p值,如果p<α,那么H0被拒绝。α是指定的一个小数值,通常是0.05或0.01方差分析表(AVOVA)统计推断在多元

4、回归里,我们还可以对每一个参数βi进行假设检验:这样我们就可以决定在保持其它预测变量不变的情况下,某一个预测变量xi是否和结果变量y具有显著的因果关系统计推断检验以下统计假设的检验统计量是t统计量,其自由度为n-k-1变量选择给定结果变量y,{x1,x2,…,xk}是预测变量的可能集合。-为了使得预测目的有用,我们希望模型包括尽可能多的预测变量-为了精炼和节约成本,我们希望模型包括尽可能少的预测变量变量选择后向删除前向选择逐步选择后向删除使用全部(或剩下的)预测变量拟和模型查看模型中每一个预测变量和y的显著关系挑选具有最大p值的预测变量,如果p>α,把这个变量

5、从模型中排除掉,返回到第一步否则,终止这一过程。前向选择使用一个(或更多)预测变量拟和模型查看模型外的每一个预测变量和y的显著关系挑选具有最小p值的预测变量,如果p<α,把这个变量加入到模型中,返回到第一步否则,终止这一过程。逐步选择使用一个(或更多)预测变量拟和模型查看模型外的每一个预测变量和y的显著关系挑选具有最小p值的预测变量,如果p<α,把这个变量加入到模型中,返回到第一步查看模型中每一个预测变量和y的显著关系,挑选具有最大p值的预测变量,如果p>α,把这个变量从模型中排除掉,返回到第一步否则,终止这一过程变量转换结果变量y,和/或预测变量x1,x2,

6、…,xk可进行转换,-目的是为了得到拟和更好的模型-或因为理论上的考量变量转换对于只有一个简单预测变量的模型:加入一个二次项:更一般地,多项式回归模型:变量转换倒数转换或变量转换对数转换最后的等式等价于:变量转换目的是经过转换后预测变量和结果变量可得到线性模型通过转换后模型呈现线性的称为内在线性,否则称为非线性模型除非对y进行的普通的转换使得和所有x呈线性关系,通常应该是转换这些x变量,而y保持不变通常假定在最终模型形式上随机误差有可加性稳定方差的转换函数格式限制转换虚拟预测变量许多应用涉及到类别型预测变量,例如性别、季节、诊断结果(坏、一般、好)对于有序变量

7、,例如诊断结果,可以使用打分1,2,3对于具有c个类别的名义变量,使用c-1个指示变量,这些指示变量被称为虚拟变量。例如季节,可用X1=1,如果是冬季,否则为0;X2=1,如果是春季,否则为0;X3=1,如果是夏季,否则为0残差分析残差的定义:关于残差的假设:(2)所有观测记录都独立残差分析如果模型正确,残差ei应该展现出符合我们假设的趋势否则,残差可能表明有假设被违反了残差分析通常我们会画残差ei对每一个预测变量的散点图:我们还画ei对的散点图对对对违反假设的残差图案残差的方差随水平变量的增加而增加违反假设的残差图案模型可能缺少一重要变量违反假设的残差图案模

8、型需要一二次项多元回归需考虑的其它方面

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。