回归分析和相关分析.ppt

回归分析和相关分析.ppt

ID:58402917

大小:215.14 KB

页数:32页

时间:2020-09-07

上传者:U-25918
回归分析和相关分析.ppt_第1页
回归分析和相关分析.ppt_第2页
回归分析和相关分析.ppt_第3页
回归分析和相关分析.ppt_第4页
回归分析和相关分析.ppt_第5页
资源描述:

《回归分析和相关分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

第九章 回归分析和相关分析 本章目录9.1相关性及其度量9.2一元线性回归分析9.3多元线性回归分析9.4回归诊断9.5logistics回归目的:通过研究变量间的相互关系,测定其紧密程度,揭示数据后的规律,构建模型,来进行结构分析,政策评价,预测和控制。 9.1相关性及其度量变量间相互关系分为两种:函数关系:可以用某一方程y=f(x)表达相关关系:数值变化存在不完全确定的依存关系。可以用某种相关性度量来刻画相关关系——相关分析;函数关系——回归分析; 相关的种类相关程度:完全相关不完全相关不相关相关方向:正相关负相关相关形式:线性相关非线性相关涉及变量:一元相关多元相关影响因素:单相关复相关 在进行相关分析和回归分析之前需要观察不同变量之间的散点图。了解相关程度。x=c(1.21,1.30,1.39,1.42,1.47,1.56,1.68,1.72,1.98,2.10)y=c(3.90,4.50,4.20,4.83,4.16,4.93,4.32,4.99,4.70,5.20)plot(x,y)得到图形如右图所示:数据分布相对分散,存在某种递增关系。推测x和y之间存在某种正相关关系。 相关分析线性相关:Pearson相关系数Spearman秩相关系数Kendall相关系数H0:x和y不相关检验函数:cor.tsest() cor.test()cor.test(x,y,alternative=c("two.sided","less","greater"),method=c("pearson","kendall","spearman"),exact=NULL,conf.level=0.95,...)x和y的相关系数为0.68,p值=0.03≤0.05,故拒绝原假设,从而认为x和y相关。如何算x和y的Spearman秩相关系数?练习:P271,9.1 9.2一元线性回归分析数学模型:y=β0+β1X+ɛ相关的函数:求回归方程:lm()求参数置信区间:confint()summary();anova();predict() R软件实现lm(y~x)summary(lm(y~x)) 一元线性回归步骤散点图(判断能否进行回归分析)回归分析需要对回归系数(t值);拟合优度(R方);方程进行检验(F值)残差分析预测: 举例:粮食需求量x和人口增加量ya=data.frame(x=c(274,180,375,205,86,265,98,330,195,53,430,372,236,157,370),y=c(162,120,223,131,67,169,81,192,116,55,525,234,144,103,212))plot(a$x,a$y)#作x和y的散点图summary(lm(y~x))#回归分析结果abline(lm(y~x))#在散点图上显示回归直线plot(residuals(lm(y~x)))#残差散点图predict(lm(y~x),data.frame(x=200),interval="prediction")#x=200时的预测区间根据显示结果说说X和Y的关系如何?练习:P272,9.2 9.3多元线性回归分析数学模型:y=β0+β1X1+β2X2+β3X3+β4X4+.......+ɛ 数据输入y<-c(11.2,8.8,12.3,11.6,13.4,18.3,11.1,12.1,9.6,8.4,9.3,10.6,8.4,9.6,10.9,10.1,14.8,9.1,10.8,10.2,13.6,14.9,16.0,13.2,20.0,13.3,10.4)x1<-c(5.68,3.79,6.02,4.85,4.60,6.05,4.90,7.08,3.85,4.65,4.59,4.29,7.97,6.19,6.13,5.71,6.40,6.06,5.09,6.13,5.78,5.43,6.50,7.98,11.54,5.84,3.84)x2<-c(1.90,1.64,3.56,1.07,2.32,0.64,8.50,3.00,2.11,0.63,1.97,1.97,1.93,1.18,2.06,1.78,2.40,3.67,1.03,1.71,3.36,1.13,6.21,7.92,10.89,0.92,1.20)x3<-c(4.53,7.32,6.95,5.88,4.05,1.42,12.60,6.75,16.28,6.59,3.61,6.61,7.57,1.42,10.35,8.53,4.53,12.79,2.53,5.28,2.96,4.31,3.47,3.37,1.20,8.61,6.45)x4<-c(8.2,6.9,10.8,8.3,7.5,13.6,8.5,11.5,7.9,7.1,8.7,7.8,9.9,6.9,10.5,8.0,10.3,7.1,8.9,9.9,8.0,11.3,12.3,9.8,10.5,6.4,9.6)A=data.frame(y,x1,x2,x3,x4) 软件实现lm.reg<-lm(y~x1+x2+x3+x4,data=A)summary(lm.reg)有些自变量通不过检验怎么办?lm.step<-step(lm.reg)——AIC(赤迟信息准则,值越少越好)summary(lm.step)练习:P245,例9.3.1 9.4回归诊断误差项是否满足不相关性、等方差性、正态性等选择的模型是否合适是否存在异常样本回归分析是否具备稳定性自变量之间是否存在高度相关,(多重共线性) 残差分析(残差散点图)残差图:以残差为纵坐标的图形。残差图应随机在-2——+2之间的带状区间里,称之为正常残差图(图a),其他三张为异常残差图。图b:应改为曲线模型;图c:主差齐性不成立;图d:观测值不独立。 R语言实现y.res<-residuals(lm.reg)#计算残差print(y.res)y.rst<-rstandard(lm.reg)#计算标准化残差print(y.rst)y.fit<-predict(lm.reg)#计算预测值op<-par(mfrow=c(1,2))#将两张散残差点图一并输出plot(y.res~y.fit);plot(y.rst~y.fit) 方差齐性的诊断及修正方法当残差的绝对值随预测值的增加也有明显增加的趋势(或减少的趋势,或先增加后减少的趋势)时,表示关于误差的方差齐性(即误差方差)的假定不成立.误差方差非齐性时,有时可以通过对因变量作适当的变换,使得关于因变量Z在回归中误差的方差接近齐性. R语言实现x<-c(294,247,267,358,423,311,450,534,438,697,688,630,709,627,615,999,1022,1015,700,850,980,1025,1021,1200,1250,1500,1650);y<-c(50,40,45,55,70,65,55,62,68,78,80,84,88,97,100,109,114,117,106,128,130,160,97,180,112,210,135)B<-data.frame(x,y)lm.reg<-lm(y~x);summary(lm.reg)y.rst<-rstandard(lm.reg);y.fit<-predict(lm.reg)op<-par(mfrow=c(2,2));plot(y.rst~y.fit)lm.new_reg<-update(lm.reg,sqrt(.)~.);coef(lm.new_reg)yn.rst<-rstandard(lm.new_reg);yn.fit<-predict(lm.new_reg);plot(yn.rst~yn.fit) 正态性检验(QQ图)plot(lm.reg,2)plot(lm.new_reg,2)异常点的识别一般把标准化残差的绝对值≥2的观测点认为是可疑点;而标准化残差的绝对值≥3的观测点认为是异常点。 影响分析对回归结构影响很大的观测点。影响函数:去掉某个观测点后的系数与包含所有观测点的系数的差。相差越大,该观测点对回归结果的影响越大。lm.influence(模型,do.coef=TRUE) 判别标准Cook距离:|Di|>4/n强影响点DFFITS准则:|Di|>强影响点COVRATIO准则:离1越远,影响越大。influence.measures(模型) R语言实现x1<-c(1500,1500,3300,4200,2000,2500,2300,2500)x2<-c(5000,4000,3000,2500,2000,2500,3500,3000)y<-c(96000,95000,95000,94000,90000,92000,95000,94000)money<-data.frame(x1,x2,y)lm.reg<-lm(y~x1+x2,data=money)summary(lm.reg)influence.measures(lm.reg) 共线性诊断特征值法条件指数方差膨胀因子 特征值法eigen()构建数据框y=data.frame(x1,x2,x3,x4)eigen(y)$valuesr个特征值近似等于0,则有r个共线性。 条件指数法kappa()条件指数:10~30弱相关30~100中等相关大于100强相关kappa(y) 方差膨胀因子VIFVIF>10,模型有很强的共线性问题。vif(lm(y~x1+x2+x3+......)) Logistic回归logistic回归模型属于广义线性模型(GeneralizedLinearModel)的一种 R语言实现x1<-rep(c(1,0,1,0,1),c(5,10,10,10,10))x2<-c(17,44,48,55,75,35,42,57,28,20,38,45,47,52,55,68,18,68,48,17,70,72,35,19,62,39,40,55,68,25,17,45,44,67,55,61,19,69,23,19,72,74,31,16,61)x3<-c(1,0,1,0,1,0,1,0,0,0,1,0,1,0,0,1,1,0,1,0,1,1,0,1,1,1,1,0,0,1,0,0,0,0,0,1,1,0,1,0,1,1,0,1,1)y<-c(1,0,0,0,1,1,1,0,1,1,0,1,1,0,1,0,0,0,1,0,1,0,1,0,0,1,1,0,1,0,0,1,1,0,1,0,0,0,1,0,1,0,1,0,0)accident<-data.frame(x1,x2,x3,y)log.glm<-glm(y~x1+x2+x3,family=binomial,data=accident)summary(log.glm) 方程如果有系数没有通过检验(逐步):log.step<-step(log.glm)summary(log.step) 预测log.pre<-predict(log.step,data.frame(x1=1))p1<-exp(log.pre)/(1+exp(log.pre));p1log.pre<-predict(log.step,data.frame(x1=0))p2<-exp(log.pre)/(1+exp(log.pre));p2 9.3.1数据y<-c(162,120,223,131,67,169,81,192,116,55,252,232,144,103,212)x1<-c(274,180,375,205,86,265,98,330,195,53,430,372,236,157,370)x2<-c(2450,3250,3802,2838,2347,3782,3008,2450,2137,2560,4020,4427,2660,2088,2605)S=data.frame(y,x1,x2)lms=lm(y~x1+x2,data=S)summary(lms)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭