spss回归分析相关分析

spss回归分析相关分析

ID:19863790

大小:918.26 KB

页数:55页

时间:2018-10-07

上传者:U-2462
spss回归分析相关分析_第1页
spss回归分析相关分析_第2页
spss回归分析相关分析_第3页
spss回归分析相关分析_第4页
spss回归分析相关分析_第5页
资源描述:

《spss回归分析相关分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

相关分析Correlations线性相关:当一个变量的值发生变化时,另外的一个变量也发生大致相同的变化。(+-)非线性相关:如果一个变量发生变动,另外的变量也随之变动,但是,其观察值分布近似的在一条曲线上。 如果仅仅研究变量之间的相互关系的密切程度和变化趋势,并用适当的统计指标描述。这就是相关分析。如果要把变量间相互关系用函数表达出来,用一个或多个变量的取值来估计另一个变量的取值,这就是回归分析。绘制散点图和计算相关系数是相关分析最常用的工具,它们的相互结合能够达到较为理想的分析效果相关分析Correlations 是将数据以点的形式画在直角坐标系上,通过观察散点图能够直观的发现变量间的相关关系及它们的强弱程度和方向。散点图:完全负相关负相关无相关完全正相关正相关无相关 实际操作: 简单散点图:生成一对相关变量的散点图重叠散点图:生成多对相关变量的散点图矩阵散点图:同时生成多对相关变量的矩阵散点图三维散点图:生产成三个变量之间的三维散点图相关分析Correlations ①表示一对变量间统计关系的散点图②将纵轴变量选入【Y轴】,③将横轴变量选入【X轴】,④将分组变量选入【设置标记】:用该变量分组,并在一张图上用不同颜色绘制若干个散点图。⑤将标记变量选入【标注个案】:将标记变量的各变量值标记在散点图相应点的旁边。简单散点图: 计算相关系数:利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤:1.计算样本相关系数r;相关系数r的取值在-1---+1之间r>0表示两变量存在正的线性相关关系;r<0表示两变量存在负的线性相关关系r=1表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关|r|>0.8表示两变量有较强的线性关系;|r|<0.3表示两变量之间的线性关系较弱 2.对样本来自的两总体是否存在显著的线性关系进行推断。由于存在随机抽样和样本数量较少等原因,通常样本相关系数不能直接用来说明样本来自的总体是否具有显著的线性相关而需要通过假设检验的方式对样本来自的总体是否存在显著的线性相关关系进行统计推断。基本步骤是:(1)提出原假设,即两总体无显著的线性关系。(2)选择检验统计量,即不同的相关系数。(3)计算检验统计量的观测值和对应的概率值。(4)决策:p与a的关系。 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson简单相关系数、Spearman等级相关系数和Kendall相关系数等。1.Pearson简单相关系数(适用于两个变量都是数值型的数据)Pearson简单相关系数的检验统计量为:相关分析Correlations Pearson系数用来度量定距型变量间的相关系数。积距相关分析,即最常用的参数相关分析,适用于双正态连续变量。Spearman相关等级系数用来度量定序变量间的线性相关系数。该系数的设计思想与Pearson简单相关系数完全相同,只是应用的范围不一样。对数据没有严格的要求。Kendall采用非参数检验方法用来度量定序变量的线性相关关系。对数据分布没有严格要求,适用于有序(等级)变量之间的关联程度。相关分析Correlations尝试把收入分为等级然后kendell 正态分布:皮尔逊积矩相关只适用于双元正态分别的变量。如果正态分布的前提不满足,两变量之间的关系可能属于非线性相关。样本独立性:被试必须来自于总体的随机样本,且被试之间必须相互独立。替换极值:变量中的极端如极值、离群值对相关系数的影响较大,最好加以剔除或代之以均值或中数。相关分析Correlations 2Spearman等级相关系数Spearman等级相关系数用来度量定序变量间的线性相关关系,设计思想与Pearson简单相关系数相同,只是数据为非定距的,故计算时不直接采用原始数据而是利用数据的秩,用两变量的秩代替代入Pearson简单相关系数计算公式于是其中的和的取值范围被限制在1和n之间,且可被简化为:相关分析Correlations 如果两变量的正相关性较强,它们秩的变化具有同步性,于是较小,r趋向于1;如果两变量的正相关性较弱,它们秩的变化不具有同步性,于是较大,r趋向于0;小样本下,在零假设成立时,Spearman等级相关系数服从Spearman分布;在大样本下,Spearman等级相关系数的检验统计量为Z统计量,定义为Z统计量近似服从标准正态分布。 3.Kendall相关系数用非参数检验方法度量定序变量间的线性相关关系利用变量秩数据计算一致对数目和非一致对数目。当两个变量具有较强的正相关关系,则一致对数目较大,非一致对数目较小,当两个变量具有较强的负相关关系,则一致对数目较小,非一致对数目较大,当两个变量相关性较弱,则一致对数目和非一致对数目大致相等 Kendall相关系数在小样本下,Kendall相关系数服从Kendall分布;在大样本下,Kendall相关系数的检验统计量为Z统计量,定义为:Z统计量近似服从标准正态分布。 偏相关分析:偏相关分析和偏相关系数简单相关系数研究两变量间线性相关性,若还存在其他因素影响,其往往夸大变量间的相关性,不是两变量间线性相关强弱的真实体现。例如,研究商品的需求量、价格和消费者收入之间的线性关系时,需求量和价格的相关关系实际还包含了消费者收入对价格和商品需求量的影响。此时,单纯利用简单相关系数来评价变量间的相关性是不准确的,需要在剔除其他相关因素影响的条件下计算变量间的相关。 (3)偏相关分析也称净相关分析,它在控制其他变量线性影响的条件下分析两变量间的线性关系,所采用的工具是偏相关系数。(4)控制变量个数为1时,偏相关系数称一阶偏相关;控制两个变量时,偏相关系数称为二阶偏相关;控制变量的个数为0时,偏相关系数称为零阶偏相关,也就是简单相关系数。偏相关分析: 偏相关系数的分析步骤:计算样本的偏相关系数假设有三个变量y、x1和x2,在分析x1和y之间的净相关时,需控制x2的线性作用,则x1和y之间的一阶偏相关定义为:偏相关系数的取值范围及大小含义与相关系数相同。 (2)对样本来自的两总体是否存在显著的净相关进行推断,检验统计量为:其中,r为偏相关系数,n为样本数,q为阶数。t统计量服从n-q-2个自由度的t分布。 对于案例8-1,已经分析了家庭收入与计划购房面积之间的相关性。直观感觉这种相关性会受到家庭常住人口数影响。为此可将家庭常住人口数作为控制变量,对家庭收入与计划购房面积作偏相关分析。分析(analyze)相关(correlate)偏相关(partial) 回归分析:通过一个(些)变量的变化解释另一变量的变化线性相关分析:计算线性相关系数r确定两变量之间的相关方向与密切程度无法表明两变量之间的因果关系无法从一个或几个变量(xi)的变化来推测另一个变量(y)的变化情况在于通过X的已知或设定值,去估计或预测Y的(总体)均值。变量Y是被预测或被解释的变量,称为因变量(DependentVariable)或被解释变量(ExplainedVariable)变量X是用来预测或解释因变量的变量,称为自变量(IndependentVariable)或解释变量(ExplanatoryVariable) 理论和方法具有一致性;相关分析是回归分析的基础和前提,无相关就无回归,相关程度越高,回归越好;回归分析是相关分析的继续和深化;相关系数和回归系数方向一致,可以互相推算。回归分析 (二)回归分析的种类按自变量的多少分简单(一元)回归:y=a+bx复(多元)回归:y=0+1x1+2x2+…+nxn按回归方程式的特征分线性回归:因变量为自变量的线性函数。y=a+bx一元线性回归方程非线性回归:因变量为自变量的非线性函数 定义:描述因变量y如何依赖于自变量x和误差项方程一元线性回归模型可表示为y是x的线性函数部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量反映除了x和y之间的线性关系以外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性称为模型的参数回归模型(regressionmodel) 回归方程的方差分析 SSR占SST的比例,用判定系数表示;用来衡量回归方程对y的解释程度。 在给定样本中,SST不变,如果实际观测点离样本回归线越近,则SSR在SST中占的比重越大,因此回归直线的拟合优度可用下面的判定系数(可决系数)测度判定系数(coefficientofdetermination)的取值范围:越接近1,说明实际观测点离样本线越近,拟合优度越高。 判定系数无方向性,相关系数则有方向,其方向与样本回归系数β1相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。回归分析 定义:观察值与回归值之间的平均误差。公式估计标准误差 一元线性回归模型的检验线性回归模型的检验分二大类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性从基本假设是否成立这一角度检验最小二乘估计法的适用性及其改进拟合优度检验显著性检验 拟合优度检验拟合优度检验主要用来检验样本回归函数与实际观测点的“接近”程度,可用判定系数(或相关系数、估计标准误差)测度。显著性检验线性关系的检验回归系数的检验回归分析 多元线性回归模型多重线性回归方程:Y=β0+β1x1+β2x2+…βpxp+εa是常数,β0,:回归常数,β1…βp是偏回归系数。偏回归系数表示其他自变量假设不变时,某一个自变量变化而引起因变量变化的比率。若要比较各自变量对因变量的贡献,则要将原始数据分别转化为标准分数,以标准分数建立标准回归方程:ZY=ß1Zx1+ß2Zx2此时的ß是标准偏回归系数。 多元线性回归的条件线性走势:自变量与因变量之间的关系是线性的。独立性:因变量的取值必须独立。正态性:就自变量的任何一个线性组合,因变量均服从正态分布。方差齐性:就自变量的任何一个线性组合,因变量的方差均相同。样本要求:样本数应当在希望分析的自变量数的20倍以上为宜。(逐步回归:样本个数/自变量个数>40)必须是连续变量 多元回归方程中的自变量选择强行进入法(enter),即一般所称的复回归分析法。强迫所有变量有顺序地进入回归方程。在研究设计中,如果研究者事先建立假设,决定变量的重要性层次,则应使用enter法比较合适。此法又称“层次式进入法”(hierarchicalenter)后退法(Backward),将已纳入方程的变量按对因变量的贡献大小由小到大依次剔除,每剔除一个自变量,即重新检验每一自变量对因变量的贡献。前进法(Forward),对已纳入方程的变量不考察其显著性,直到方程外变量均达不到入选标准。强制剔除法(Remove)与后退法相同,只是筛选的是Block 逐步回归法Stepwise运用很广,报告中出现的几率最高。结合了前进法和后退法的优点。第一,模型中先不包含任何预测变量,与因变量相关最高者首先进入回归方程;第二,控制回归方程中的变量后,根据每个预测变量与因变量的偏相关的高低来决定进入方程的顺序;第三,已进入方程的自变量,每引入一个自变量,就对方程中的每一自变量进行显著性检验,若发现不显著,就剔除;每剔除一个自变量有也对留在方程中的自变量再进行显著性检验,再不显著,又剔除,直至没有自变量引入,也没有自变量剔除为止。在选择回归的方法时,注意专业上的要求要先于统计学检验的准则。Hower(1987)建议:(1)应优先使用enter或stepwise。(2)使用enter时,可根据研究计划时的相关理论,决定变量投入的顺序。 通过样本数据建立回归方程后一般不能立即用于对实际问题的分析和预测,通常要进行各种统计检验.包括回归方程的拟合优度检验回归方程的显著性检验回归系数的显著性检验残差分析等 拟合优度检验检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。认为y各观测值的之间的差异主要由两个方面的原因造成:一是解释变量x取值的不同造成的;二是由于其他随机因素造成的。SST=SSA+SSE(回归平方和+剩余平方和)若SSA所占的比例远大于SSE所占的比例,那么回归方程的拟合优度会比较高。 拟合优度检验采用R2统计量,该统计量称为判定系数或决定系数,它是SSA/SST反映因变量的全部变异中能够通过回归关系被自变量解释的比例,即检验回归的效果如何。如果自变量的个数很多,有时要以调整后的决定系数代替原先的决定系数。因为增加新的自变量会使决定系数增大,这种决定系数会有高人为控制的机制在内,此时用调整后的决定系数更好拟合优度检验 显著性检验线性回归方程能够较好地反映被解释变量和解释变量之间统计关系的前提应是,被解释变量和解释变量之间确实存在显著的线性关系。回归方程的显著性检验正是要检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。基本出发点与拟合优度检验非常相似。检验采用F统计量。主要目的是研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究解释变量能够有效地解释被解释变量的线性变化,他们能够保留在线性回归方程中。是围绕回归系数估计值的抽样分布展开的,由此构造服从某种理论分布的检验统计量,并进行检验。 t统计量:在一元线性回归分析中,回归方程显著性检验和回归系数显著性检验的作用是相同的,两者可以相互代替,同时回归方程显著性检验中F=t2。但在多元线性回归中的这两种检验通常不能互相替代。 残差分析所谓残差是指由回归方程计算所得的预测值与实际样本值之间的差距。残差分析是回归方程检验中的重要组成部分,其出发点是,如果回归方程能较好地反映被解释变量的特征和变化规律,那么残差序列中应不包含明显的规律行和趋势性。残差分析的主要任务可大致归纳为,分析残差是否服从均值为0的正态分布、分析残差是否为等方差的正态分布、分析残差序列是否独立、借助残差探测样本中的异常值等。图形分析和数值分析是残差分析的有效工具 如何看回归结果?哪些自变量(我们选定)进入了回归方程对回归方程进行检验,看方程是否有意义看回归效果,R2 回归分析的三个重要指标方差分析:F检验用于检验回归模型与数据的拟合程度。若F值显著,表明预测变量与指标变量之间存在很强的线性关系,也可以说回归方程显著。回归系数的显著性检验:若b显著,则表明预测变量与指标变量之间存在强线性相关。R2:解释回归平方和在总平方和中所占的比率,即解释回归的效果。 虚拟变量若某个自变量是分类变量,则须将分类变量转化为二进制虚拟变量(dummyvariable),每个虚拟变量只代表2级(0,1),即某一属性出现时,虚拟变量取值为1,否则为0。设虚拟变量时,以一种取值作为对比水平(基础水平),若原自变量有几个水平,就应使用n-1个虚拟变量,实则虚拟变量代表的是同一变量的不同取值如性别变量有男或女两类,可将两个类别分别以两个0/1二值变量的形式重新编码。设置变量X1表示是否男,取1表示男,取0表示不是男。再设置变量X2表示是否女,取1表示是女,取0表示不是女。产生的回归方程中各虚拟变量回归系数的含义是,相对参照类,各个类对解释变量平均贡献的差,进而可进一步研究各类别间对被解释变量的平均贡献差异。 共线性诊断Collinearitydiagnostics复共线问题(共线性,collinearity问题):由于自变量间的相关太高,造成回归分析之情境困扰。如果自变量间有共线性问题,表示一个预测变量是其他自变量的线性组合。若有严重的共线性存在,则模型的参数就不能完全被估计出来。 (1)VIF>=5,存在复共线。所以在回归分析中,最好先做个相关分析,以探讨变量间的相关情形,如果某些变量间的相关系数太高,可考虑挑选一个较重要的变量投入回归分析。(2)容忍度tolerance=1-R2,其中R2是此自变量与其他自变量间的多元相关系数的平方。容忍度界于0和1之间,如果一个自变量的容忍度太小,表示此变量与其他自变量间有共线性问题;其值若接近0,表示此变量几乎就是其他变量的线性组合。(3)条件指针(conditionindex,CI),CI越大,越有共线性问题。Eigenvalueconditionindex(k)若k2>=100表示存在复共线,若k2>=1000,表示存在严重的复共线。 关于复共线问题,也有说法,即认为若torrence降至0.5以下,而VIF上升到2.0以上,就应检查自变量是否为自相关。 对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(看修正AdjustedR2-->1) 二项Logistic回归利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是,被解释变量应是连续定距变量。如课题数、教育支出实际应用中这种要求未必能够得到较好的满足。例如,要分析消费群体的特征对汽车消费的影响中,职业、性别、年龄等并不是连续变量,不能满足回归分析的要求,且是个较普遍存在的问题。 Logistic回归Logistic回归是多元线性回归方法不断发展的成果。其将被解释变量设置成“是”或者“否”:在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问题的特点是因变量只有两个值,不发生(0)和发生(1)。这就要求建立的模型必须因变量的取值范围在0~1之间。 Logistic回归模型Logistic模型:在逻辑回归中,可以直接预测观测变量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式:其中:z=B0+B1X1+…BpXp(P为自变量个数某一事件不发生的概率为Prob(noevent)=1-Prob(event)。因此最主要的是求B0,B1,…Bp(常数和系数) 大部分人还是说不清楚,,然后可以尝试分析这些原因是否继续愿意献血与性别之间的,,这是否还有意义呢 实际操作

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭