欢迎来到天天文库
浏览记录
ID:59439484
大小:340.50 KB
页数:50页
时间:2020-09-18
《统计学 之一元线性回归模型ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一元线性回归模型一元线性回归涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示因变量与自变量之间的关系用一个线性方程来表示一元线性回归模型描述因变量y如何依赖于自变量x和误差项的方程称为回归模型一元线性回归模型可表示为y=0+1x+e(总体回归模型)y是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x
2、和y之间的线性关系所解释的变异性0和1称为模型的参数样本回归函数对于实际的经济问题,通常总体的情况是未知的,无法掌握所有单位的数值,总体回归函数实际上是未知的,因此我们只能从总体中抽取的样本数据进行观测,同时总体的参数也是未知的,必须用样本回归的参数来替代,这样我们有样本回归函数:其中是与相对应的估计值,和分别是样本回归函数的估计参数。样本回归函数与总体回归函数的区别1、总体回归函数虽然是未知的,但它是确定的;而从总体中每次抽样都能获得一个样本,就都能拟合一条样本回归线,所以样本回归线是随抽样波动而变化的,可以有很多条。因此样本回归线不等于总体回归线,最多只是未知总体回归线的近似表示
3、。2、总体回归函数的参数是确定的常数;而样本回归线的参数是随抽样而变化的随机变量。3、总体回归函数中的误差项是不可直接观测的,而样本回归函数的误差项是可以直接计算得出。回归分析的目的利用样本回归函数去估计总体回归函数。由于样本对总体总是存在代表性误差,样本回归函数总会过高或者过低估计总体回归函数。我们研究的目的是,需要寻求一种规则和方法,使得样本回归函数中的参数能够“尽可能地接近”总体回归函数中的参数。一元线性回归模型(基本假定)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=0+1x对于所有的x值,ε的方差σ2都相同误差项ε是一个服从正
4、态分布的随机变量,且相互独立。即ε~N(0,σ2)无自相关假定误差项与自变量不相关参数的最小二乘估计最小二乘法的思路为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(做到全面)。Y与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。在Y与X的散点图上画出直线的方法很多。找出一条能够最好地描述Y与X(代表所有点)之间的直线。问题是:怎样算“最好”?最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。最小二乘法的思路yx纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点最小二乘法的
5、思路纵向距离是度量实际值与拟合值是否相符的有效手段点到直线的距离——点到直线的垂直线的长度。横向距离——点沿(平行)X轴方向到直线的距离。纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。实际值-拟合值=残差(剩余)最小二乘法的思路纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。最小二乘估计使因变
6、量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小YX0******△**△****Y7Y9Min数学形式最小二乘估计(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法(和的计算公式)根据最小二乘法的要求,可得求解和的公式如下回归直线的拟合优度变差因变量y的取值是不同的,y取值的这种波动称为变差。变差来源于两个方面由于自变量x的取值不同造成的除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小
7、可以通过该实际观测值与其均值之差来表示变差的分解(图示)xyy{}}离差平方和的分解(三个平方和的关系)SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{离差平方和的分解(三个平方和的意义)总平方和(SST)反映因变量的n个观察值与其均值的总离差回归平方和(SSR)反映自变量x的变化对因变量y取值变化的影响,或者说,是由于x与y之间的线性关系引起的y的取值变化,也称为可解释的平方和残差平方和(S
此文档下载收益归作者所有