《岭回归分析》ppt课件

《岭回归分析》ppt课件

ID:26932107

大小:1.27 MB

页数:46页

时间:2018-11-30

《岭回归分析》ppt课件_第1页
《岭回归分析》ppt课件_第2页
《岭回归分析》ppt课件_第3页
《岭回归分析》ppt课件_第4页
《岭回归分析》ppt课件_第5页
资源描述:

《《岭回归分析》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第七章岭回归7.1岭回归估计的定义7.2岭回归估计的性质7.3岭迹分析7.4岭参数k的选择7.5用岭回归选择变量7.6本章小结与评注§7.1岭回归估计的定义一、普通最小二乘估计带来的问题当自变量间存在复共线性时,回归系数估计的方差就很大,估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。例7.1假设已知x1,x2与y的关系服从线性回归模型y=10+2x1+3x2+ε§7.1岭回归估计的定义§7.1岭回归估计的定义§7.1岭回归估计的定义二、岭回归的定义岭回归(RidgeRegression,简记为RR)提出的想法是很自然的。当自变量间存在复共线性

2、时,|X′X|≈0,我们设想给X′X加上一个正常数矩阵kI,(k>0),那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度小得多。考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用X表示§7.1岭回归估计的定义我们称为β的岭回归估计,其中k称为岭参数。由于假设X已经标准化,所以X′X就是自变量样本相关阵,(7.2)式计算的实际是标准化岭回归估计。(7.2)式中因变量观测向量y可以经过标准化也可以未经标准化。显然,岭回归做为β的估计应比最小二乘估计稳定,当k=0时的岭回归估计就是普通的最小二乘估计。(7.2)§7.1岭回

3、归估计的定义表7.2§7.1岭回归估计的定义§7.2岭回归估计的性质在本节岭回归估计的性质的讨论中,假定(7.2)式中因变量观测向量y未经标准化。§7.2岭回归估计的性质§7.2岭回归估计的性质§7.2岭回归估计的性质§7.3岭迹分析§7.3岭迹分析§7.4岭参数k的选择一、岭迹法岭迹法选择k值的一般原则是:(1)各回归系数的岭估计基本稳定;(2)用最小二乘估计时符号不合理的回归系数,其岭估计的符号变得合理;(3)回归系数没有不合乎经济意义的绝对值;(4)残差平方和增大不太多。§7.4岭参数k的选择§7.4岭参数k的选择二、方差扩大因子法§7.4岭参数k

4、的选择三、由残差平方和来确定k值岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和SSE(k)的增加幅度控制在一定的限度以内,可以给定一个大于1的c值,要求:SSE(k)<cSSE(7.3)寻找使(7.3)式成立的最大的k值。在后边的例子中我们将会看到对该方法的应用。§7.5用岭回归选择变量岭回归选择变量的原则:(1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。(2)随着k的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。(3)如果依照上

5、述去掉变量的原则,有若干个回归系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。§7.5用岭回归选择变量例7.2空气污染问题。Mcdonald和Schwing在参考文献[18]中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了15个解释变量,收集了60组样本数据。x1—Averageannualprecipitationininches平均年降雨量x2—AverageJanuarytemperatureindegreesF1月份平均气温x3—SameforJuly7月份平均气温

6、x4—Percentof1960SMSApopulationaged65orolder年龄65岁以上的人口占总人口的百分比x5—Averagehouseholdsize每家人口数x6—Medianschoolyearscompletedbythoseover22年龄在22岁以上的人受教育年限的中位数§7.5用岭回归选择变量x7—Percentofhousingunitswhicharesound&withallfacilities住房符合标准的家庭比例数x8—Populationpersq.mileinurbanizedareas,1960每平方公里人口

7、数x9—Percentnon-whitepopulationinurbanizedareas,1960非白种人占总人口的比例x10—Percentemployedinwhitecollaroccupations白领阶层人口比例x11—Percentoffamilieswithincome<$3000收入在3000美元以下的家庭比例x12—Relativehydrocarbonpollutionpotential碳氢化合物的相对污染势x13—Samefornitricoxides氮氧化合物的相对污染势x14—Sameforsulphurdioxide二氧化

8、硫的相对污染势x15—Annualaverage%relativehumidit

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。