相关分析与回归分析-教案

相关分析与回归分析-教案

ID:25361518

大小:1.64 MB

页数:52页

时间:2018-11-19

上传者:U-5734
相关分析与回归分析-教案_第1页
相关分析与回归分析-教案_第2页
相关分析与回归分析-教案_第3页
相关分析与回归分析-教案_第4页
相关分析与回归分析-教案_第5页
资源描述:

《相关分析与回归分析-教案》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

相关分析与回归分析@经济与管理学院,2016-2017学年雷海东第10讲correlationandregression 章节提纲:1.相关分析概论2.相关关系的测定3.一元线性回归分析4.多元线性回归分析学习目标1、了解相关关系的概念及种类、相关分析的概念和内容2、重点掌握简单相关系数的计算方法3、掌握回归分析的概念及建立线性回归方程的方法4、掌握相关参数的统计检验,能对统计软件回归计算的结 第一、二节-相关分析概述-相关关系测定 变量间关系血压~年龄动物死亡率~毒物剂量体重~身高肺活量~体重相关:血压和年龄关联的程度如何?动物死亡率与毒物剂量关联的程度如何?回归:人群中,平均而言,血压如何随年龄变化?毒性实验中,动物死亡率如何随剂量变化?两个随机变量之间的关系回归:如何-即定量的联系,从一个变量来预测另外一个变量。给定剂量,动物的死亡率,能不能做出预测。都是描述两个随机变量之间的关系。回归回答如何 散点图Fig. 7.1收缩压和舒张压(mmHg)(665名6至10岁女孩)收缩压舒张压他两的关系都是此长彼长。所以总体趋势看得出是向前的。但是给定了一个舒张压,但是收缩压可以是高也可以是低。 指数函数对数函数正弦函数Y和X之间的函数关系对应于给定的X值,相应的Y值是确定的.但现在给定一个X值,Y可能是不确定的。(是上页) 分散集中x不论怎么变,Y都是在一个范围走动,那么X和Y没有什么相关性。烧饼,给定一个X,就是一个水平上,X变,y也是一个水平上,也没有关系香蕉,x变大,y从小到到,去曲线关系,不是线性关系。线性相关也几乎是零,虽然是曲线关系下前三没有相关性上面都是线性相关一三是正线性相关,3图相关性好。2,4是负先关性,4负的绝对值比2好一些。相关性好就是绝对值好些一下研究的都是线性相关,简称相关 三、相关关系相关系数是度量两个变量之间线性相关的方向和强度的测度,常用的度量指标是皮尔逊(Pearson)相关系数【专栏】在相关分析中,定性分析或经济理论分析重要吗?correlationcoefficient 相关系数(CorrelationCoefficient)1.总体相关系数(Populationcorrelationcoefficient)Pearson’s乘积-矩线性相关系数:“两个标准化变量之乘积”的总体平均----简单相关系数(simplecorrelationcoefficient)--X和Y的总体协方差相关系数也有总体和样本,但一般我们只掌握样本X舒张压Y收缩压x标准化X标准化*Y标准化相乘,然后取总得平均,在总体里面去平均。总体里面全部人去求平均是总体相关系数。如果去简化sigamax、y是常数,拿出来外面。X-μx是离均差,上面就是两个离均差相乘,E是期望。期望就是求平均的意思,在总体里面的平均的意思总体里面的协方差算在一块、舒张压离开平均值多远,收缩压离开平均值都远,相乘一块有多远,也叫监督相关系数一定介于-1和1之间总体均数Roρ 去掉n,公式如下: 2.样本相关系数(Samplecorrelationcoefficient)需要用样本来估计相关系数怎么定义,类似刚才的X(Y)-样本的观察值减去样本的均数,然后相乘。乘积统统加起来。下面不求平均,不然就约掉了-离均差的平方求和乘以离均差的平方求和。样本的离均差乘积求和离均差平方之和介于-1和1之间。有可能发生-1和1,但生活中很少发生 度量线性关系的强度和方向:1)r=0--无线性关系,或很弱2)若绝对值较大--线性关系较强3)符号正负--线性关系的方向4)+1or-1--完全相关,实践中少见P181 研究父子之间身高的关联性为什么这么来定义?样本-判断关联性,求r样本的离均差乘积之和X本身的离均差平方之和Xbar计算出来例子8-1 第三节一元线性回归分析 第三节一元线性回归分析回归分析实质就是通过建立数学方程,研究因变量与自变量之间的变动关系,如果分析一个自变量与一个因变量的线性关系,称为一元线性回归分析,如果分析两个或两个以上的自变量与一个因变量的线性关系,则称为多元线性回归。 一、一元线性回归理论模型一元线性回归模型是用于分析一个自变量x与一个因变量y之间线性关系的数学方程,在变量x与y的直角坐标平面上,可以绘制散点图,可以看出所有的散点大致呈线性关系or在一元线性回归之中,因变量由两个部分组成,一个是,其解释了自变量x变动引发的线性变化。另一部分为剩余变动,反映了不能为自变量x和因变量y之间的线性关系所解释的其他剩余变动。 根据刚才的那组表。是不是最后会呈这样的图形板书那么我们回到线性方程的知识里面去。用公式来代表,其实就是一个求极值的问题。左边就是Min(Y-Yheand)^2。y-yhead的纵向距离的和最小。y-yhead就是残差,是一个剩余的部分,是一个估计值。实际的是y,希望你估计值yhead尽量接近你实际得到的指标y,这是最好的。所以残差(剩余的部分)最小。而yhead=(a+bx)带进去,求偏导-最小二乘法拓展但两个自变量呢?是不是一个平面。不,是一个三维空间。三个自变量?四维。多变量和一个y,多维。其实只要知道残差最小就行。同样的原理。二、普通最小二乘估计(ols) 最小平方法是测定长期趋势最常用的的方法。它是通过建立数学方程,对元时间序列配合一条较为理想的趋势线,使得原序列中的各实际值和趋势值的离差平方最小。一般最小平方法的统计表达式是:式中:采用这种趋势要配合直线,也可以配合曲线,这需要跟原序列所反映的现象变动的特点来确定。趋势形态判断方法比较多,最为简单的就是画散点图。若散点大致在某一条直线周围波动,就配合趋势直线;若散点大致在某一条曲线周围波动,就配合趋势曲线。首先介绍直线趋势的配合。 (一)直线方程适用条件:现象发展的各期逐期增长量大体相等。年份199019911992199319941995199619971998粮食产量100112125140155168180194206逐期增长量--1213151513121412 即趋势值【(2X+1)²】'=2(2x+1)*2=8x+4画图,这边,x对应的是时间序号,而Y帽子代表的是发展水平。直线方程公式表示为:上述直线方程式中,a、b为两个未定参数,根据最小平方法的要求 求方程组:例-某省1991~1998年人口资料如表所示,要求拟合时点的趋势方程,并以此趋势预测1999年末的人口数。8763n=8b求出来都代入到a公式里面yx就是第几年 横轴表示时间,纵轴表示元数列的指标数值,坐标原点定在1990年,其序号0用来表示,拟合直线趋势方程。根据上述公式:将1999年时间序列号9带入配合的趋势方程,可得到1999年末某省人口数的趋势值(预测值)既,1999年末该省人口数将达到9402.94万人。1990是原点画图 上述方程中的x为时间。为了计算方便,可对其进行假设:当时间项数为奇数时,可假设x的中间项为0,这时时间项依次排列为:…,-3,-2,-1,0,1,2,3,…;当时间项数为偶数时,可假设原点0在数列正中相另两个时间的中点,这时时间项依次排列为:…,-5,-3,-1,1,3,5,…这种设x的方法是要使时间项的正负相抵消,使x=0,则上述联立方程组可简化为:为了方便手工计算,可以把原数列的重点移至坐标原点,使得”x=0“,此时,标准方程可以化为:-3,-2,-1,0,1,2,3相加等于零画图 例如;用简便的方法来计算上面例子。1999年的时间序号应该为9. 年份199019911992199319941995199619971998粮食产量100112125140155168180194206逐期增长量--1213151513121412本例中各期的逐期增长量大体相同,可以配合直线趋势方程。Practic-某地区各年的粮食产量为:Tip:首先判断一下,趋势是怎么样的。 案例:某地区粮食产量直线趋势方程计算年份xyxy1990-4100-400161991-3112-33691992-2125-25041993-1140-140119940155001995116816811996218036041997319458291998420682416合计--138080860 (i)已知:n对观察值(X1,Y1),(X2,Y2),…,(Xn,Yn);(ii)作散点图(scatterdiagram)(iii)若散点图呈直线趋势,则配一条直线:求出直线的方程式刚才是X对父子哪怕是有些分散的下面看怎么计算线性回归三步骤·· 什麽是回归?找出反映平均水平的那条直线的方程100120140160180200220100120140160180200220Father’sheight(cm)Son’sheight(cm)Y的平均值是如何依赖X 给定X的数值,Y的数值取在在一个平均值(y|x)附近对应与不同的X值,Y的平均值座落在一条直线上----回归直线.y|x和X的关系可用一个线性方程描写.这样的回归线用方程来表示 三、一元回归的统计检验统计检验包括线性关系检验和回归系数检验,具体包括拟合优度检验、参数显著性检验以及回归总体线性的显著性检验1、经济意义检验:就是根据模型中各个参数的经济含义,分析各参数的值是否与分析对象的经济含义相符。2、回归标准差检验3、拟合优度检验4、回归系数的显著性检验 3.估计标准误差用来反映回归直线代表性大小的统计分析指标。回归的残差平方和除以它的自由度来表示,称为剩余方差。标准误差为剩余方差的开方:P318例9-7 接下来的内容只做拓展 相关系数计算检验的步骤根据公式计算相关系数r值根据给定的显著性水平α,查相关系数检验表,自由度为n-2,得到临界值统计决策4.相关性检验(r检验)判决系数R2是对变量x与y变量进行回归时做出的,用来衡量回归的拟合优度;相关系数r是对变量x与y变量进行相关分析时做出的,用以判定变量x与y的线性相关程度。与r的区别:P319例9-8 r随样本变化而变化,是一个随机变量总体的回归系数r→问题:=0吗?假定:X和Y服从二元正态分布3.相关系数的统计检验相关系数是从样本里面选出来。用样本的相关系数去推出总体的样本相关系数总体如果样本里r非零(0.几),退出是零或是零,但样本里面非零,所以假设检验平面上有x轴和y轴xy服从二元正态分布的话,x本身服从一元真该分布,同理forY刚才看的是样本,那么我怎么知道这个样本可否推断出总体? 1、离差平方和的分解P316=0总离差平方和TSS回归平方和ESS残差平方和RSS再回到第一个的拟合优度判断 离差平方和的分解TSS=RSS+ESS拟合优度检验(判决系数R2)也叫判决系数,数值范围为0~1之间。若R2=1,说明全部样本观察值均在估计的回归直线上,观察值yi与回归值(估算值)完全拟合。若R2-0,完全不拟合,线性模型完全不能解释因变量yi的变动。R2越接近于1,拟合程度越好,反之越差。P317例子9-6 t检验:是对回归系数的显著性检验t检验的基本步骤提出假设构造t检验统计量,并由样本数据计算t检验值根据显著性水平α,查t分布表,得到临界值统计决策5.参数的显著性检验(t检验)P320~t(n-2)显著性检验包括两个方面:回归系数(参数)整个回归方程 b随样本变化而变化,是一个随机变量总体的回归系数b→问题:=0吗?2.关于回归的统计推断20对父子,找出来的规律,不完全等同于客观上父子身高的规律,再测20对父子,可能出来就边了,所以b随着样本变化而变化我们关心不是b是β,有了b推测β最关系的是,β是不是零的。是零的话,线是水平的,代表那就没有办法推测出儿子身高。还有去推断β是否为零 统计量回归系数的标准差残差的标准差回归系数的t检验α=0.05样本里面的斜率减去理论上的斜率(H0),β=0so涉及到Sb样本标准误b怎么有标准差?换另外一批数值,有另外一个,随机(样本变动)变动理论上可以推出b随机变动的标准差t如果太大,不太可能太大,一般2.几,3.几就很大了。H0成立的话,t就跑到尾巴里面去了,所以不太可能,拒绝H0因此要涉及计量范围,X的范围要设计得大一些,那么b的变化(Sb)就小些,就不是要做很多分样本,一份就够了,那更能就近真是的β(b变异性大师很不好的)。s是反映散点,没有办法改变。能改变的只有Sb的分母(X轴分散度)就像实验和温度,温度散开点,会更好参照。设计回归的时候:b的变异性s反应散点下一页解释 残差的标准差放在分子,散点分布情况,分母是X的离均差平方之和,反映了父亲身高的变异性,父亲如果有高高唉唉,那么(离均差的平方值)变异性就大。所以b的变异性是和两者有关。b在这里就是斜率,斜率怎么会变,翘起来,或者压下去,样本变了。斜率的变异性跟两个因素有关,散点的分散性,同时和估计身高的分散性(X轴上的分散性)有关。若父亲的高矮千遍一律,斜率变异性怎么样,翘得就低,相反就高(上下两点拉大)敲高。如果是X轴分散,(左右拉大),换一份样本,变化小一些。斜率的离异程度s就是残差平方治和最小的那个残差平方之和(已经达到最小)。(分子)再去除以自由度。n-2?推导方程的时候已经用了a和b,用了两个参数。S平方就是方差-残差的变异性S就是残差的标准差,描述去大小,与散点有关,分散度。分散大,残差平方和就大。理论上可以推出b随机变动的标准差s反应散点回归系数的标准差残差的标准差b的变异性s反应散点 P320例子9-9 F检验是对回归总体线性关系是否显著的一种假设检验F检验的基本步骤提出假设构造F检验统计量,并由样本数据计算F检验值根据显著性水平α,查F分布表,得到临界值统计决策6.回归总体线性的显著性检验(F检验)P321例子9-10 F检验是对整个模型而已的,看是不是自变量系数不全为0,而t检验则是分别针对某个自变量的,看每个自变量是否有显著预测效力。在回归分析中,F检验和t检验各有什么作用?在一元回归里面,F检验与t检验是等价的。其实一样多元则不一样了。P322 3.回归方程的应用估计平均值的范围--平均值的置信区间(CI)(2)估计个体值Y的范围--个体值的预测区间(PI)预测,有两个东西需要预测:1'假定给了父亲身高,这类孩子的将来的平均水平(不是针对这个父亲他的孩子,而是针对170的这样的父亲,他们的孩子将来平均有多高。(样本量是20个)2.这个父亲,他的儿子将来在于什么范围内,这个比较难,特定他的儿子。先说第一件事情样本平均值是有波动的,跟两者有关,一个是样本量,n越大,中间黑线稳定。方差问题。第二个就是自变量拉得开不开。第三个就是x0,例如1米7,你给的身高离开平均身高远不远。如文问我的父亲是两米,离开均值一米六八的大,根号里面大,差异性就大了。X0越靠近xbar,效果越好S和原来散点的分散程度有关confidentintervel,平均值的置信区间如果把置信区间画到图上,确定一个x0就可以确定一个y0,就可以出来一个置信区间,再改动一个x0,又有一个y0,又有一个置信区间。图上,换一个x0,就在直线的上下,有一个区间再直线的上下。换一个x0,又可以在直线的上下有一个区间。这个区间,整个的连起来,就可以是里面的虚线,两条虚线像喇叭,中间窄,两头宽。why?X0离开xbar近就窄,远就宽。两条虚线就反映了CI,就是平局值的置信区间。你给我数值父亲180,带劲CI的公式,得到平均儿子有多高,然后不是就这么高了,要加减一个ta,v乘以s根号内的范围,所以就有了这么一个宽度,若是给我1米9,就会再外外,宽一些。我1米7,帮我估算下我的儿子身高多少?怎么考虑?你170,你儿子可能很高,你儿子的身高是在平均值的上下,也可能比较低,在下面的曲线。总言之,如果在上面,会围绕着平均值有一个波动。如果是下线,也是样道理,但范围是更宽。在外边大喇叭口。特定从公式上来说,要估计某个特定个体的y值呢,里边除了刚才(1)的两项,多了一个1.(围绕平均值有三点的分散性)既是根号里面比它还要宽,多了1.整个就宽一些。总共有两个区间,一个是估计平均值的范围,另一个是估计个体值得范围。平均值范围称为,均数的CI。个体值范围为了区别它,称为预测区间PI。对比一下发现,范围区别(宽度) 第四节-多元回归分析 四、非线性趋势的测定当现象的发展呈曲线变动的时候,仍然可以使用最小平方法配合趋势曲线方程。曲线有多样,常见的有二次曲线(抛物线)和指数曲线。(一)二次曲线趋势测定当时间序列中的二级增长量大致相同时(也就是时间序列数据的逐期增长绝对量近似为一常量时,可选择二次曲线模型),皆可以配合二次曲线方程,二次曲线方程一般形式为方程中a,b,c三个三个待定参数,根据最小方法。代入之后各自求导等于零,可以得到:年份199019911992199319941995199619971998产品产量98810121043108011261179123913071382逐期增长量--2431374653606875二级增长量----7697787 年份199019911992199319941995199619971998产品产量98810121043108011261179123913071382逐期增长量--2431374653606875二级增长量----7697787例如,某工业产品产量增长量指标 案例:某工业产品产量抛物线方程计算表年份xyxy1990-4988-395216158082561991-31012-303699108811992-21043-208644172161993-11080-1080110801199401126000019951117911791117911996212392478449561619973130739219117638119984138255281622112256合计--1035629526070178708y就是发展水平 式中:a——基期水平,b——平均发展速度,x——时间a、b均为未定参数。求解指数方程时,一般是将指数方程通过取对数转化为直线方程,然后按直线方程办法求出参数,再对所得结果查反对数还原。应用条件:现象发展各期的环比增长速度大体相同。(下页)指数曲线的一般方程为:(三)指数曲线方程 案例:某地区工业净产值指数曲线方程计算年份净产值yx19935.3-50.7243-3.6215250.72695.331519947.2-30.8573-2.571990.85437.150019959.6-10.9823-0.982310.98189.5889199612.911.11061.110611.109212.8197199717.131.23303.699091.236717.2461199823.251.36556.8275251.364223.1313合计75.3--6.27304.461470--75.26757.2/5.3=1.369.6/7.2=1.33环比增长速度相似,判断是指数函数 Thanksssssssss!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭