简单线性回归

简单线性回归

ID:21920839

大小:1.46 MB

页数:75页

时间:2018-10-21

简单线性回归_第1页
简单线性回归_第2页
简单线性回归_第3页
简单线性回归_第4页
简单线性回归_第5页
资源描述:

《简单线性回归》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、简单线性回归本章内容第一节简单线性回归第二节线性回归的应用第三节残差分析第四节非线性回归双变量计量资料:每个个体有两个变量值总体:无限或有限对变量值样本:从总体随机抽取的n对变量值(X1,Y1),(X2,Y2),…,(Xn,Yn)目的:研究X和Y的数量关系方法:回归与相关简单、基本——直线回归、直线相关第一节简单线性回归英国人类学家F.Galton首次在《自然遗传》一书中,提出并阐明了“相关”和“相关系数”两个概念,为相关论奠定了基础。其后,他和英国统计学家KarlPearson对上千个家庭的身高、臂长、拃长(伸开大拇指与中指两端的最

2、大长度)做了测量,发现:历史背景:儿子身高(Y,英寸)与父亲身高(X,英寸)存在线性关系:。也即高个子父代的子代在成年之后的身高平均来说不是更高,而是稍矮于其父代水平,而矮个子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“回归”“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。线性回归的概念及其统计描述直线回归的概念目的:研究因变量Y对自变量X的数量依存关系。特

3、点:统计关系。X值和Y的均数的关系,不同于一般数学上的X和Y的函数关系为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据(表12-1)进行回归分析,得到图12-1所示散点图(scatterplot)No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517在定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(indepe

4、ndentvariable),用X表示;凝血时间称为因变量(dependentvariable),用Y表示由图12-1可见,凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linearregression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。样本线回归方程为各X处Y的总体均数的估计。简单线性回归模型1.a为回归直线在Y轴上的截距a>0,表示直线与纵轴的交点在原点的上方a<0,则交点在原点

5、的下方a=0,则回归直线通过原点2.b为回归系数,即直线的斜率b>0,直线从左下方走向右上方,Y随X增大而增大;b<0,直线从左上方走向右下方,Y随X增大而减小;b=0,表示直线与X轴平行,X与Y无直线关系b的统计学意义是:X每增加(减)一个单位,Y平均改变b个单位回归模型的前提假设线性回归模型的前提条件是:线性(linear)独立(independent)正态(normal)等方差(equalvariance)残差(residual)或剩余值,即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地

6、代表数据点分布趋势的直线。原则:最小二乘法(leastsumofsquares),即可保证各实测点至直线的纵向距离的平方和最小回归参数的估计——最小二乘原则回归参数的估计方法本例:n=15ΣX=14.7ΣX2=14.81ΣY=224ΣXY=216.7ΣY2=3368解题步骤3、计算有关指标的值4、计算回归系数和截距5、列出回归方程此直线必然通过点(,)且与纵坐标轴相交于截距a。如果散点图没有从坐标系原点开始,可在自变量实测范围内远端取易于读数的值代入回归方程得到一个点的坐标,连接此点与点(,)也可绘出回归直线。绘制回归直线总体回归系数

7、β的的统计推断样本回归系数b的标准误回归方程的假设检验建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有?1.方差分析Y的离均差,总变异残差回归的变异数理统计可证明:上式用符号表示为式中上述三个平方和,各有其相应的自由度,并有如下的关系:如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计意义,可计算统计量F:式中t检验(1)方差分析方差分析表(2)t检验参数β的意义是:若自变量X增加一个单位,反因变量Y的平均值

8、便增加β注意:总体回归系数的可信区间利用上述对回归系数的t检验,可以得到β的1-α双侧可信区间为本例b=-6.9802,自由度=13,t0.05,13=2.16,Sb=0.78655,代入公式(12-7)得参数β的95%

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。