空间混合自回归模型的局部影响分析

空间混合自回归模型的局部影响分析

ID:34707061

大小:2.06 MB

页数:54页

时间:2019-03-09

上传者:U-24835
空间混合自回归模型的局部影响分析_第1页
空间混合自回归模型的局部影响分析_第2页
空间混合自回归模型的局部影响分析_第3页
空间混合自回归模型的局部影响分析_第4页
空间混合自回归模型的局部影响分析_第5页
资源描述:

《空间混合自回归模型的局部影响分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

分类号密级UDC学校代码硕士研究生学位论文空间混合自回归模型的局部影响分析学院(部、所):统计与数学学院专业:统计学研究方向:统计诊断姓名:杨翠平导师:石磊教授论文起止时间:2012年5月~2013年5月 学位论文原创性声明声明:本人所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果.尽我所知,除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果.对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明.本人完全意识到本声明的法律结果由本人承担.论文作者签名:日期:年月日学位论文版权使用授权书本人完全了解云南财经大学有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文和论文电子版,允许学位论文被查阅或借阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存、汇编、发表学位论文;授权学校将学位论文的全文或部分内容编入、提供有关数据库进行检索.论文作者签名:导师签名:日期:年月日日期:年月日 摘要摘要随着地理信息系统(GIS)、全球定位系统(GPS)、卫星遥感(Rs)的迅速发展,人们越来越关注数据的地理空间信息。基于这种空间数据分析的统计学称为空间统计学。空间数据具有空间自相关性(SpatilAutocorrelation),即不同地区的数据之间存在相互依赖性。空间混合自回归(SpatialAutoregressive,简记为SAR)模型是处理空间相关性问题的一种方法。它包括了被解释变量与本区域的解释变量的相关性,还刻画了与相邻区域的被解释变量的相关性。影响点或异常点的识别是空间混合自回归模型参数估计以及统计推断中很重要的问题。而现今研究空间模型统计诊断的文献还比较少。Cook(1986)首次提出的局部影响分析方法是采用影响图的法曲率来度量数据的影响,研究同时扰动模型的某些部分而不是删除个别数据点对数据产生的联合影响。由于扰动模式定义的多样性,这一方法得到了广泛的应用和发展。Lawrance(1988)指出局部影响分析方法能够识别出数据中存在的部分Masking效应。但是当数据间存在很强的相关性,局部影响分析方法就无法有效识别所有的影响点。Shi和Huang(2011)提出了逐步局部影响分析方法,对局部影响分析的方法进行改进,分析表明该方法能有效识别数据中的Masking效应。本文中我们把上述两种方法应用到空间混合自回归模型,识别空间混合自回归模型中的异常点和影响点,并通过实例分析比较两种方法在识别过程中的有效性。在局部影响分析中,本文采用的扰动方式主要有方差扰动、均值扰动以及自变量扰动三种。通过Cook(1986)局部影响分析方法理论推导出了空间混合自回归模型以及一阶空间自回归模型分别在方差扰动模式、均值扰动模式以及自变量扰动模式下的诊断统计量。在用局部影响分析方法中,本文采用最大特征向量法来判定影响点或异常点。在逐步局部影响分析方法中,本文采用单点移除法迭代,并选用平均基准来判定影响点或异常点。因为一阶空间自回归模型I 摘要是空间混合自回归模型的特殊形式,因此在实例分析中我们仅讨论了空间混合自回归模型的局部影响分析和逐步局部影响分析的结果。从诊断效果来看,局部影响分析方法以及逐步局部影响分析方法能有效识别空间混合自回归模型中的影响点或异常点。逐步局部影响分析方法在识别影响点或异常点的过程中不仅能明确数据点是否为影响点或异常点,通过q-value值的大小,还能判断检测出的点是否为强影响点。关键词:空间混合自回归模型;一阶空间自回归模型;局部影响分析;逐步局部影响分析;扰动II AbstractAbstractWiththedevelopmentofGIS,GPSandRS,moreandmorepeopleconcernedaboutthedatageospatialinformation.Statisticalanalysisbasedonthespatialdataiscalledspatialstatistics.Spatialdatahasspatialautoregressivewhichiscalledthedependenceamongthedataofdifferentarea.Thespatialautoregressive(SAR)modelisamethodofprocessingspatialcorrelation,whichnotonlyincludedthecorrelationbetweentheindependenceandthevariableoftheownarea,butalsoportrayedthecorrelationbetweentheindependenceandtheindependenceoftheneighborarea.Thepresenceofimpactpointsoroutliershasgreatinfluenceontheestimationofparametersandtheinferenceofstatistical,whichisalsoanimportantproblemintheSARmodel.Theliteratureofstatisticaldiagnosticaboutthespatialmodelisrare.ThelocalinfluenceanalysisproposedbyCook(1986)putforwardthenormalcurvatureoftheinfluencediagramtomeasuretheimpactofthedata,andresearchthecombinedeffectthroughperturbingsomepartsofthemodelinsteadofdeletingindividualdatapoints.Becauseofthediversityofthedisturbancescheme,localinfluenceanalysishasbeenwidelyusedanddeveloped.Lawrance(1988)pointedoutthatthelocalinfluenceanalysiscanidentifythemaskingeffect,butwhenthereisastrongcorrelationamongthedata,localinfluenceanalysiscannotidentifyalltheinfluentialpointseffectively.Throughimprovingthelocalinfluenceanalysis,ShiandHuang(2011)proposedstepwiselocalinfluenceanalysis,whichhasbeenidentifiedthatcanidentifymaskingeffectamongthedata.Inthispaper,weapplythetwomethodsmentionedabovetotheSARmodeltojudgetheinfluentialobservationsandoutliersoftheSARmodel.WeusetwosetsofnumericalexamplestotestandverifytheeffectivenessofthelocalinfluenceanalysisandthestepwiselocalinfluenceIII Abstractanalysis.Inthispaperweusethreemodeswhicharevariancedisturbance,meandisturbanceandindependentvariablesdisturbancetodiagnosethemodels.Fromthemethodwhichmentionedbefore,wegetthediagnosticstatisticsoftheSARmodelandthefirst-orderspatialAR(FAR)modelthatinthedisturbanceofvariancedisturbance,meandisturbanceandindependentvariablesdisturbance.Inthelocalinfluenceanalysis,weusethelargesteigenvectormethodtojudgetheinfluencepointsoroutliers.Inthestepwiselocalinfluenceanalysis,weusesinglepointremovediterativemethod,anduseaveragebasistodeterminetheinfluentialpointsandoutliers.ForthereasonthattheFARmodelisaspecialformoftheSARmodel,inthispaper,wejustusetwosetsofnumericalexamplestotestandverifytheeffectivenessofthelocalinfluenceanalysisandthestepwiselocalinfluenceanalysisusedintheSARmodel.Fromtheresult,weknowthediagnosisiseffective.Fromtheeffectofdiagnosis,thestepwiselocalinfluenceanalysiscannotonlydetecttheinfluentialpointsandoutliers,butalsocandetectwhetherthepointisstronginfluentialpointonthebasisoftheq-value.Keywords:TheSARmodel;TheFARmodel;Thelocalinfluenceanalysis;Thestepwiselocalinfluenceanalysis;perturbationIV 目录目录摘要...................................................IABSTRACT.............................................III第一章引言.............................................1第一节研究背景..................................................1第二节研究意义..................................................1第三节文献综述..................................................2第二章空间混合自回归模型及其性质.......................6第一节模型介绍..................................................6第二节权重矩阵的设置............................................7第三节空间混合自回归模型的参数估计..............................8第三章局部影响分析与逐步局部影响分析..................10第一节局部影响分析.............................................10一、Cook(1986)局部影响的基本概念........................................10二、异常点或影响点的检测方法...........................................12第二节逐步局部影响分析.........................................14一、方法介绍............................................................14二、基准点的选择........................................................14第四章空间混合自回归模型的影响测度....................16第一节方差扰动模式下的局部影响分析.............................16I 目录一、扰动形式............................................................16二、空间混合自回归模型在方差扰动模式下的影响分析........................17第二节均值扰动模式下的局部影响分析.............................19一、扰动形式............................................................19二、空间混合自回归模型在均值扰动模式下的影响分析........................20第三节自变量扰动模式下的局部影响分析...........................21一、扰动形式............................................................21二、空间混合自回归模型在自变量扰动模式下的影响分析......................22第五章实例分析........................................24第一节数据一在各种扰动模式下的局部与逐步局部影响分析结果.......24一、数据介绍............................................................24二、方差扰动模式下局部影响分析结果......................................24三、方差扰动模式下逐步局部影响分析方法结果..............................25四、均值扰动模式下局部影响分析结果......................................27五、均值扰动模式下逐步局部影响分析方法结果..............................28六、自变量扰动模式下局部影响分析结果....................................29七、在自变量扰动模式下逐步局部影响分析结果..............................30第二节数据二在各种扰动模式下的局部与逐步局部影响分析结果.......31一、数据介绍............................................................31二、方差扰动模式下局部影响分析结果......................................31II 目录三、方差扰动模式下逐步局部影响分析结果..................................32四、均值扰动模式下局部影响分析结果......................................34五、均值扰动模式下逐步局部影响分析结果..................................35第三节分析结果总结.............................................36一、局部影响分析结果总结...............................................36二、逐步局部影响分析结果总结............................................36第六章研究结论及展望..................................38第一节研究结论.................................................38第二节创新与展望...............................................38参考文献................................................40致谢....................................................44本人在学期间研究成果....................................45III 引言第一章引言第一节研究背景迄今研究的无论是经济问题还是其他的问题中,处理的数据通常分为截面数据、时间序列数据以及面板数据。时间序列数据反映了某一事物、现象等随时间的变化状态或程度,数据之间往往会存在一定的相依结构。而如果数据取自同一时期但不同区域时,数据中通常会包含区域所处位置的特性,这样的数据也会存在相关性,我们称这样的相关为空间相关,这种相关性与序列相关不同。相比时间序列相关,空间相关问题的特殊之处在于它的方向是多维的。因此在研究空间相关问题时,主要考虑的是区域性问题。基本思想就是相邻区域具有较强的相关性,离得较远的区域相关性较弱。这样就涉及到空间加权、空间相邻等问题,张尧庭(1996)对相关的问题都有进行讨论。空间自回归模型是处理空间相关性问题的一种方法,该模型为空间计量分析中空间线性模型的通用形式,该模型说明被解释变量不仅与本区域的解释变量有关,还与相邻区域的解释变量和被解释变量均有关。Cliff和Ord(1981)对该模型的参数估计以及检验进行了研究,李序颖、顾岚(2004)对该模型的参数估计做了一个全面的研究,并分别讨论了在该模型的参数给以不同的取值时,派生出的另外几种模型的参数估计以及检验。空间混合自回归模型是空间自回归模型不考虑空间误差时的形式,该模型既反映了线性模型中变量之间的相关性,又反映了变量在空间上的相关性。第二节研究意义统计诊断的主要目的是为了评价模型的适当性以及识别数据中可能存在的异常点和影响点。Beckman和Cook(1983)提出异常点就是那些与数据集很不协调的数据点,这时异常点可以认为是所假定分布中的极端点,也就是小概率事1 引言件发生时所对应的点。在回归模型中,对异常点的识别需要通过度量偏离的指标来检验。影响点一般定义为对模型参数估计以及统计推断产生重要影响的点,尤其是数据中的强影响点是指那些对统计量的取值有非常大的影响力或冲击力的点。影响点的识别工作就是影响分析。这一理论一直以来都受到较为广泛的关注,较有代表性的理论大概有数据删除法、局部影响法两大类。数据删除法是通过对比删除样本中的数据点后的统计推断或参数估计与完全数据下的统计推断或参数估计来判定数据点是否为影响点或异常点。但是对于具有相依特征的数据,数据的顺序都有本质含义,不能随意搬动更不能任意删除。Cook(1986)局部影响分析方法首次提出研究同时扰动模型的某些部分而不是删除个别数据点时对数据点产生的联合影响。空间混合自回归模型与线性回归模型有相同的线性性,但这两种模型在局部影响分析过程中有什么不同之处?得到的影响矩阵有什么差异?逐步局部影响分析方法在空间混合自回归模型中是否也与在线性模型中一样能有效避免Masking效应?这些问题对空间混合自回归模型性质的研究以及统计诊断领域的扩展都很有意义。本文主要探讨局部影响分析方法在空间混合自回归模型中的应用,结合实例判断局部影响分析方法以及逐步局部影响分析方法在诊断空间数据模型的有效性。第三节文献综述局部影响分析方法是Cook(1986)首先提出来的一种统计诊断方法,他通过联合扰动方式,建立了一种局部影响分析的新思路。通过同时扰动,能够使得数据中多个影响点的联合效应被识别出来,对于很多复杂模型,该方法在计算上比数据删除法更简便易行而且很具有实用价值,因此对此方法应用的相关文献不胜枚举。Beckmanetal(1987)将此方法应用于方差分量模型;Lawrance(1988)将此方法应用于变换模型中以识别变换参数估计的影响点或异常点;Thomas和Cook(1990)将此方法应用于广义线性模型;Tsai和Wu(1992)研究了该方法在一阶自回归模型及异方差模型中的应用;韦博成(1992)提出了基于Bayes模型下局部影响分析的应用;StLaurent和Cook(1993)将此方法应用于非线性回归模型,2 引言研究了非线性模型中杠杆值、法曲率及局部影响的关系;Lee和Wang(1996)将此方法应用于结构方程模型;Shi(1997)将此方法应用于主成分分析中;Lesaffre和Verbeke(1998)将此方法应用于混合线性模型;朱仲义和韦博成(2001)研究了半参数非线性回归模型的局部影响分析,得到了半参数非线性回归模型的诊断统计量,并用实例验证了方法的有效性;解锋昌、李爱萍和李勇(2005)将此方法应用于具有结构变化的线性回归模型中;马国栋和吴喜之(2008)将此方法应用于随机波动模型中,此模型是在期权定价问题中,反映隐性不可观测波动的时间序列,该文用伪极大似然估计的方法对参数进行估计,用Cook(1986)的局部影响分析方法对强影响点进行识别,并通过模拟实例得出很好的影响点识别效果;吕敏红和郭鹏江(2011)将此方法应用于时间序列模型中,应用此方法克服了数据删除法对时间序列样本数据相依性的忽略和破坏,并可以一次性探测出数据中所有的强影响点,相比于数据删除法来说,大大的简化了计算量。何利平和石磊(2011)将此方法应用于列联表数据中,定义了离散数据模型的I距离,一致法曲率和影响图,同时针对离散数据结构构建了局部影响分析方法,用此方法对二维列联表独立模型进行局部影响分析,用实例验证了方法的有效性。针对不一样的模型或数据类型,此方法都能够很好地识别出影响点或异常点,并且相比于数据删除法来说,此方法能有效的避免Masking效应。与此同时,由于该方法的广泛应用性,很多研究者对此方法做了很多的改进和完善,Thomas和Cook(1990)提出基于Perasonchi-2统计量的局部影响分析;Wu和Luo(1993)对此方法做了极大的推广,他提出的方法被称为局部影响分析的新二阶方法,该方法是基于与MLE曲面上局部最大曲率相对应的比较大的方向的评估上的一种方法,除了最大坡度方向的研究,此方法不仅对于发现隐藏的影响点很有用,同时也能让我们更进一步的了解影响的本质。Fung(1997)指出了Wu的不足,当统计量的一阶导数非零时,基于正则曲率的影响分析无法得到有用的结果。因此,很有必要限制统计量的一阶导数为零,区分局部影响是基于似然估计还是其它统计量就变得很重要。局部影响分析方法的一大优点就是通过同时扰动的方式识别出数据的联合影响,然而Lawrance(1988)指出仅仅使用法曲率达到最大值的方向h无法识别全部影响点。因此很多学者针对此问max3 引言题提出了很多的新方法。Shi(1997)通过直接定义影响函数和广义Cook距离来寻求最大的影响方法,并研究了主成分分析中的局部影响,分析并证明了在似然假设下该方法等价于Cook的局部影响分析方法。该方法也可以纳入正则曲率来考虑,但是没有解决的一个问题是很难给出一个比较客观的临界值标准来判断强影响点。针对这个问题,Poon和Poon(1999)将保形法曲率应用于局部影响分析,该方法是针对法曲率的不变性提出的,保形法曲率是基于正则曲率进行适当修正得到的,极大化保形法曲率与极大化正则曲率得到的最大影响方向是等价的,但对于保形法曲率,可以定义某些影响度量的衡量标准,提出了一种探察强影响点的新标准;Zhu和Lee(2001)将Poon和Poon(1999)的方法推广到缺失数据模型,得到了很好的效果。龚建朝针对Fung(1997)提出的问题,并受到Shi(1997)的启发,于2007年提出了一种新的影响图,将其纳入保形法曲率来考察,并根据Zhu(2001)的想法提出了新二阶方法探察强影响点的标准。影响分析中,Masking效应的识别问题是一个比较困难但又很重要的问题。Masking效应是指当数据中出现多个影响点,使用单点数据删除法时,某个强影响点会掩盖其他影响点的影响大小,从而不能有效的识别其中的影响点。很多的学者都对此问题进行了讨论和研究,Atkinson(1986)、Rousseeuw和Leroy(1987)都提出使用稳健估计替代传统的诊断统计量中的某些参数,以达到探测Masking效应的效果;Chatterjee和Hadi(1988)提出使用多个数据的删除法来处理Masking效应,但这样的计算比较繁杂,而且要经过多次比较;Lawrance(1988)注意到利用局部影响分析方法可以识别数据中Masking效应,因为局部影响分析同时扰动数据点,因此能够通过研究数据的联合影响来识别一部分Masking效应。Bruce和Martin(1989)提出局部影响分析方法只是在一定程度上能避免Masking效应,但当Masking现象比较严重,尤其是像时间序列数据,影响点或异常点成片出现时,有些影响点会被强影响点掩盖,尤其是强影响点旁边的点,此时局部影响分析方法无效。因此他们提出一种迭代删除k个数据点的诊断方法用以消除时间序列数据的smearing效应和Masking效应,但是需要进行很复杂的计算;针对这种情况,很多学者提出了很多方法来处理,Luetal(1997)、Shi和Ojeda(1997)以及Shi(2004)都提出使用局部影响中法曲率的关键矩阵中前几个4 引言特征向量来提取影响点的更多信息;Poon和Poon(1999)年提出通过考虑多个特征向量的综合度量方式来识别影响点;但是这些方法都存在一个共同的问题,也即是无法确定我们应该选多少个特征向量,而且同时使用多个特征向量来识别影响点时,存在无法比较不同特征向量在识别影响点时的差异问题;为了更进一步的解决这个问题,Shi和Huang(2011)提出逐步局部影响分析方法,该方法是一种迭代的局部影响分析方法,此方法能有效的识别出数据集中的影响点以及数据中可能存在的Masking效应,能最大程度的避免Masking效应。本文主要研究空间混合自回归模型的影响点识别问题。主要内容安排如下:第二章介绍了空间混合自回归模型及其性质;第三章详细介绍了局部影响分析方法以及逐步局部影响分析方法的思想、方法;第四章推导出空间混合自回归模型在方差扰动、均值扰动、自变量扰动模式下的影响矩阵。第五章将两个数值实例应用到模型中,检验局部影响分析方法、逐步局部影响分析方法在检测空间混合自回归模型中影响点或异常点的有效性。最后在第六章进行总结和讨论。5 空间混合自回归模型及其性质第二章空间混合自回归模型及其性质第一节模型介绍空间混合自回归模型的一般形式如下2yWyX,~N(0,I)(2.1)ny是一个n1的向量,为所研究区域的被解释变量,X为解释变量,X(XX,,,X),X为n1的向量,W为标准化的空间权重矩阵,也就12pnpinn是所有空间单元在相邻关系中的权阵,该矩阵的行和为1但其列和不一定为1,2即矩阵W不一定是对称矩阵,(,,)为未知参数,其中是空间滞后因nn变量Wy的系数,反映解释变量对因变量y变化产生的影响。这个模型研究区域的被解释变量除了与本区域的解释变量有关之外,与相邻区域的被解释变量也有关。该模型的密度函数为n11222fy(|)(2)I.(S).exp{(y).().().(SSy)}(2.2)n221其中,S()IW,=S()X。其对数似然函数化简后为nn21L()ln(2)lnS(())[()SyX-)(()SyX)](2.3)222当模型(2.1)中不存在解释变量时,Anselin(1988)将此模型称为一阶空间自回归模型,形如2yWy,~N(0,I)(2.4)n显然,该模型是空间混合自回归模型的特殊形式,它主要是说明研究区域的被解释变量与相邻区域的被解释变量有关,该模型主要反映的是变量在空间上的相关特性。虽然该模型在实际中的运用很少,但是他对其他模型的研究很有帮助。6 空间混合自回归模型及其性质第二节权重矩阵的设置空间权重矩阵不仅是区别空间计量经济学与传统计量经济学的一个重要依据,还是进行空间计量分析的前提和基础。空间权重矩阵是对空间邻近性的一种刻画,主要有以下三种定义,第一种是相邻为1,不相邻时为0,也被称为“车”相邻;第二种是斜角相邻为1,否则为0,也被称为“象”相邻;第三种是只要满足相邻或者斜角相邻就为1,否则为0,也被称为“后”相邻。虽然权重矩阵设置方法有多种,但是如何选择空间权重矩阵仍然是空间计量经济分析的重点和难点。空间权重矩阵的构造方法有很多,主要有基于空间距离和基于经济距离两种距离设置权重。对于空间距离权重矩阵,空间或地理是相邻的,则系数设为1,否则为0,也就是以相邻的第一种定义来设置的。对于经济权重矩阵,W1/zz,其中W为权重矩阵W中的ij元,zz,为两个区域的居民收入,ijijijij若zz,则W0。近年来已经有大量的学者关注空间距离的权重矩阵的设置。ijij刘旭华、王劲峰(2002)以GIS软件为基础,构建了面向区域的空间权重矩阵,该算法是利用ArcInfo的拓扑关系属性表来实现的;刘仲刚、李满春(2006)研究了面向离散点的空间权重矩阵生成算法以及实证研究;潘海燕、程朋根(2007)基于GIS软件,利用ArcObjects控件,结合VB可视化编程语言,研究了空间权重矩阵的自动建立与计算,为空间统计分析中的Moran系数、自相关度量以及Geary’C系数等的计算提供了一个很好的基础。李军利、宋亚杰(2010)针对ArcGIS的空间分析能力,基于C语言,利用ArcEngine组件设计了面向空间离散点和区域多边形空间权重矩阵的生成算法,不通过实证得到很好的效果;基于经济距离权重矩阵的设置也有不少学者进行了研究,张嘉为、陈曦、汪寿(2009)阳提出了一种新的经济空间权重矩阵,即基于区域变量协动程度的协动空间权重矩阵,并且通过这种方式设置其矩阵后,能够显著地提高模型的预测精度。由于空间计量经济学研究的日益增多以及人们在分析技术上的不断探索和发展,产生了越来越多的专门适用于分析空间计量经济问题的软件。Anselin编制了Geoda软件可用于空间分析,并能生成空间权重矩阵;Matlab的计量经济工具箱中拥有7 空间混合自回归模型及其性质包括空间自回归模型的估计以及Bayesian估计等很多空间统计分析功能;在此基础上,DiackCheikh编写了一些基于Matlab的极大似然估计的程序;在Matlab的空间和地质分析工具箱中包含了很多功能,其中就有生成空间权重矩阵的功能。在经济统计分析中,我们常用Matlab软件的空间计量包中的xy2cont,make_neigborsw等函数命令,依据各个地理位置的具体经纬度生成空间权重矩阵。文中我们采用xy2cont函数命令生成权重矩阵。第三节空间混合自回归模型的参数估计参数估计有很多种方法,例如最小二乘估计(OLS)、极大似然法(MLES)等等。对于空间混合自回归模型,最小二乘估计量通常是有偏的。可以采用极大似然法对参数进行估计,但是由于空间混合自回归模型的特殊性,直接使用极大似然估计方法无法得到参数估计的显式表达式。对于这一问题至今为止有两种方法可以解决,第一种方法是通过构造集中似然函数的方法可以得出参数极大似然估计的显示表达式,第二种方法是通过Newton-Raphson迭代算法可以得出参数的极大似然估计值。本文采用的方法是通过构造集中似然函数的方法得到模型中参数的估计值。该方法具体步骤为,第一步是对yX以及00WyX进行最小二乘回归,得到和的最小二乘估计量ˆ和ˆ;第LL0L0L二步是利用ˆ和ˆ计算上述两个回归的残差eyXˆ和eWyXˆ,第三0L00LL步是对于给定的e和e,求解使似然函数(2.3)式取最大值的则转化为求解使似0L然函数(ee)(ee)00LLLC(/2)[nln]lnIWcnn取最大值的,记为ˆ。由ˆ,通过式子ˆˆˆˆ,ˆ2(e00ˆeLL)(eˆe)0Ln2可以得出以及的估计。Anselin和Florax(1994)特别指明用该方法计算极大似然估计时要注意两个问题:第一,参数估计时需要对添加1/1/minmax约束,其中,分别代表空间权重矩阵W的最小和最大特征值;第二,当minmax8 空间混合自回归模型及其性质无法对单一的最优的离散参数进行估计时,可用Hessian矩阵导出有序最优解法。9 局部影响分析与逐步局部影响分析第三章局部影响分析与逐步局部影响分析第一节局部影响分析一、Cook(1986)局部影响的基本概念局部影响分析方法是Cook(1986)首先提出来的一种通过联合扰动方式,使得数据或模型中多个影响点的联合效应能被识别出来的统计诊断方法,该方法可用于各种统计模型,其主要特点是加入扰动的概念,而把异常点归结为“比其它点受到更大扰动的点”。n给定模型M下,记随机变量Y的对数似然函数为LR(),,为未知n参数的定义域,其为R的某一开集,相应的最大似然估计记为ˆ。令n(,,,)为n1的扰动向量,其定义域为R上的某一开集。扰动后12n的模型记为M(),相应的对数似然函数为L(),相应的参数极大似然估计记为ˆ()。设存在使得LL()(),,使得未受到扰动与受到扰00动后模型的最大似然估计相等,即ˆˆ(),且ˆ()应满足使得扰动后的似然0函数对参数的一阶导为零,即L(|)ˆ0。局部影响分析方法的中心思想就是评价扰动对参数估计量ˆ的影响。因此Cook(1986)考虑似然距离LD()2[()LˆL(())]ˆ,似然距离表示扰动前后最大值的改变量;改变量越大,说明扰动对估计量ˆ的影响越大。从参数置信域观点来看,在一定正则条件下,参数的渐进似然置信域为C(){:2{()LˆL()}2(;1p)}。ˆ()作为参数扰动后的一个估计,10 局部影响分析与逐步局部影响分析若该估计落在置信区间之内,则LD()比较小,否则LD()比较大。由此可以说明估计ˆ()与估计ˆ之间的差异大小,因而可知扰动对估计量影响的大小。因此我们认为似然距离LD()是度量ˆ()与ˆ之间差异的合适统计量。从几何的观点来看,函数zLD()表示q1维空间中的一个q维曲面,我们把这个曲面称为影响图,记为(),LD()扰动的影响被这个影响图随的变化很全面的反映了出来。影响图比Cook距离提供了更多的关于扰动对于模型影响的信息。由于对应于无扰动的模型0MM(),因此原模型对于扰动的敏感程度被影响图在处的变化率反00映出来了。为了研究影响图在附近的变化情况,首先需要指出影响图的一个特殊性0质,即影响图()在处达到极小值,似然距离LD()在处的一阶导为零,00LD()LD()()0,其中为n维向量。这也就说明一阶导数不能提供影0响图在处变化的进一步信息,为了解决这个问题,Cook(1986)引入了二阶导0数,即曲率。考虑中过以h为方向的一条直线th,其中h为单位方向向量,00Thh1,t为实参数,这条直线映射到影响图上得到一条曲线l:()t(th),这条曲线被称为h方向的提升线,而提升线的法曲率dd0Nh就是影响图沿h方向的曲率,由此定义出曲率和最大曲率分别为:C,h2hCCmax,使C达到最大值的方向记为h,,分别表示提升线()tmaxhhmaxhhhh1关于t的一阶和二阶导数,且均在处记值,影响曲率C表示影响图在处0h011 局部影响分析与逐步局部影响分析沿h方向的变化率,反映了模型对于沿h方向扰动的敏感程度,而h表示对max扰动最敏感的方向。这个最敏感的方向是研究局部影响最重要的统计量,因为当模型给定后,最大值C总是存在的,在很多情况下,很难判断C大到一maxmax个什么程度就表示扰动的影响大。但h有比较明确的意义,他指出要使似然距max离改变程度最大,该如何干扰原模型,也就是说,h指明了使似然距离发生max最大局部变化的方向。影响曲率有如此大的重要性,下面给出影响曲率C的计算公式。h定理3.1影响曲率C可表示为hTTTT1C22hGLGhhLh,(3.1)h其中L为L()对参数求二阶导数后在ˆ处计值后得到的一个数值矩阵,G和ˆ()2L()分别为G,,且都在(,ˆ)处计值。因此最大影响曲率C可0hTT1表示为C2,其中为矩阵AGLGL特征值中绝对值最大的那max11一个,这个特征值对应的特征向量即为最大影响曲率的方向h。max二、异常点或影响点的检测方法最大特征向量法是目前为止应用比较广的一种识别影响点的方法。由于IILD()表示扰动对于极大似然估计的影响,并且设h表示扰动影响最大的方max向。假设h(,,hh,)h,并假设其中有一个分量h的值比其他分量大的多,max12nj则说明h在使得似然距离达到最大值时做出了最大贡献,相对应的数据点则记j为强影响点或异常点。所以具体的诊断方法就是对(,ih),i1,2,,n做散点图maxi或列表,h为h中第i个分量的绝对值。如果h明显比其他点大,表明maximaxmaxi所对应的这个点就是对该扰动影响特别大的点,该点则被认为是强影响点或异12 局部影响分析与逐步局部影响分析常点。具体的计算规则为:对影响矩阵A,找出他的最大特征值以及对应的特征向量,这个特征向量就是h,画出这个特征向量的对应各个分量的绝对值的max散点图,就可以判断影响点或异常点。用最大特征向量法来检测异常点或影响点时,找到一种度量影响大小的准则很有必要,针对这个问题有很多学者提出了一些方法。Poon和Poon(1999)提出使用1/n作为一个判定的粗略标准,因为如果每一个分量的贡献相等且Thh1时,所有的分量都应该为1/n。注意到标准化后h的各个分量的maxmaxmax样本均值为0,标准差为1/n,很明显他们只依赖于样本容量。因此定义2/n作为临界值,当hi,1,2,的绝对值比2/n大时,则对应的第i个数据点就max,i被认为是影响点或异常点。Zhu和Lee(2001)定义了诊断统计量的基准点,其思想与前面定义的是一致的。2Cook(1986)认为由i1知最大影响曲率Cmax1为最大特征向量hmax所i反映的影响大小提供了很多信息。当qn时,Poon和Poon(1999)提出把影i响矩阵A的特征向量h定义为q-influential,q是一个需要预先设定好的值。对包i含在影响度量方法中的特征向量个数他们用q来确定。为了评价h的影响大小,i一种比较简单的方法是计算qvalue,qvalue/(1/n)n,这种度量11方法是非常有效的,如果qvalue2时,我们则认为其所对应的特征向量对于识别影响点或异常点是非常重要的,每一个数据点影响的大小则由h的分量来判i断的。当qvalue1时,则认为对应的特征向量对于识别影响点或异常点的意义不大。13 局部影响分析与逐步局部影响分析第二节逐步局部影响分析一、方法介绍逐步局部影响分析方法是Shi和Huang(2011)提出的一种迭代方法。其基本思想为在局部影响分析中,我们可以扰动数据集中任意一部分,如果某数据点在全面扰动下已被识别为影响点或异常点,那么被识别出的这些数据点就不再参加扰动,只要对剩余的数据进行扰动就有可能检测出其他的影响点或异常点。该方法的详细过程如下:第一步:在确定扰动方式后,我们首先对所有的数据点进行扰动,用局部(1)(1)(1)(1)T(1)影响分析法得到诊断统计量h(h,h,,h)。做h的散点图可以检maxmax,1max,2max,nmax测出一些影响点或异常点,用指标集I来标示在第一步中识别出来的影响点或异常点,并且指标集I中的数据点在下一步不参加扰动。用[]I来标示剩余的数据点。第二步:再次对模型进行扰动,其中指标集I中的数据点不参加扰动,得到(2)(1)(2)T(1)(1)新的诊断统计量定义为h(h,h),其中h表示h中指标集I对应的maxmax,lmaxmax,lmax(2)(2)子向量,h表示对剩余数据加入扰动后得到的局部诊断统计量。做h的散点maxmax图可以检测出一些影响点或异常点。第三步:在前面几步中已经识别出来的影响点或异常点不再参加下一步的扰动,接着重复第二步的方法,这一过程一直持续到所有的影响点或异常点全部找到为止。这时我们就认为迭代过程是收敛的,迭代过程结束。二、基准点的选择逐步局部影响分析中,迭代过程里最关键的的地方就是确定在每一步中用来判定影响点或异常点的基准。因为在第一步中是对模型进行全面扰动,按照局部影响分析方法中检测影响点或异常点的临界值标准,在第一步我们把2/n作为基准点。在第k步中(k1),假设有m个数据点被扰动。通常有三种方式k14 局部影响分析与逐步局部影响分析来定义每一步的基准。()kT()k(1)固定基准:因为(hh)()1,因此直接可以用2/n作为第一步检maxmax测影响点或异常点的基准。用这个基准识别出来的影响点或异常点在下一步中仍然是影响点或异常点。(2)可变基准:在第k步中,我们是对m个数据点进行局部影响分析,同时k()k2限定了h的长度等于s,因此判别准则可以定义为2/sm。这一可变基准max()kk在每一步迭代中都会变化,但这个变化是合理的,因为我们在每一步中只是在被扰动的数据子集中找影响点或异常点。(k1)(3)平均基准:记第(k1)步的基准为bm,在逐步局部影响分析第k步()k(k1)中,h既包含在前一步得到的h的部分分量也包括了第k步的诊断统计量maxmax()kh。因此第k步的加权平均基准可定义为max()kknmkk(1)m2bm()bm()nnmk其中2/m是第k步的可变基准。k在第一步中用的判定基准为固定基准,因此识别出来的点都被认为是强影响点。但在某些情况下,固定基准识别影响点或异常点时比较严格,因此采用平均基准会更好些,其中平均基准是可变基准与固定基准的线性组合。15 空间混合自回归模型的影响测度第四章空间混合自回归模型的影响测度扰动,通常可以理解成与被选定模型相对应的分布有微小的变化,其分布从F变为G,而这两种分布按分布函数空间中的某种”距离”非常接近。相应的把统计量TF()当成分布函数空间中的泛函,扰动后则变为TG(),要研究扰动对统计量TF()的影响则只需研究统计量TF()对扰动的敏感性或稳健性即可。在影响分析中,主要有方差扰动、数据加权扰动以及自变量扰动三种模式。本文主要讨论空间混合自回归模型在方差扰动模式、均值扰动模式以及自变量扰动模式下的一系列影响分析结果。第一节方差扰动模式下的局部影响分析一、扰动形式我们以线性模型来讨论方差扰动模式,考虑一般的线性模型2YX,~N(0,I),(4.1)Y为一n1维的观测向量,X为np维的解释变量矩阵,为p1维的未知参数,为n1维的随机向量。线性模型的方差扰动模式为2YX,~N(0,D),其中,D表示对方差扰动的矩阵,Ddiag(,,,),表示扰动向量12nTT(,,,),在无扰动情况下则为(1,1,,1)。一般方差扰动时12n01n分为单项加权情形以及一般情形。单项加权假设只有第i个分量y的方差有扰i2动:var()y,此时是一维的,则无扰动时1。此时我们可以得出第i0i个分量y的方差有扰动时,在1附近对于估计量的局部影响曲率为i016 空间混合自回归模型的影响测度222epˆiiieˆi1的第i个对角元,ˆC,其中p为投影阵PXXX()Xe表示残i24iiiˆ2nˆ2差。方差扰动在一般情形下要考虑方差已知和未知两种情形,但是无论是在2方差已知还是未知时,影响曲率的计算公式都是相同的,均为(3.1)式。二、空间混合自回归模型在方差扰动模式下的影响分析对空间混合自回归模型的残差项添加扰动,扰动后的形式如下2yWyX,~N(0,D)T其中Ddiag(,,,),(,,,)。扰动后模型的被解释变量仍然12nn12是正态分布,该分布的密度函数形式如下n112212fy(|)(2)D.().exp{S[(y)()SDS()(y)]}221其中,S()IW,S()X。扰动后的似然函数为nnn21L()ln(2)ln()ilnS(())22i111[(y)()SDS()(y)]22根据局部影响分析的理论,诊断统计量所需的关键矩阵形如2222LLLL22TT2L2L2L2LL(),(4.2)TT22L2L2L2L22TT42通过推导,可得出:2L1111yWDWytrS(()WS()W)222L11yWDXT217 空间混合自回归模型的影响测度2L11yWD(()SyX)242L11XDXT22L111(XDS()yXDX)2421Ln((IWy)X)D((IWy)X)nn4462令eySX(),则有2L1111yWdiag(,,,)diagee(,,,)eT222212n12n2L1111Xdiag(,,,)diagee(,,,)eT222212n12n2222L1eee12n(,,,)2T4222212n由于曲率度量的一个特殊性质,即在(,)ˆ处L0,L0,0ˆ2ˆLˆ0,因此有下面的式子恒成立2L111yWS()ytrS(()W)2422L02p12Lnnn444422由此可以得出L,的具体表达式如(4.3),(4.4)所示18 空间混合自回归模型的影响测度1yWWy11(WyX)trS(()ˆW)trS(()ˆWS(()ˆW)222ˆˆˆL()ˆXWyXX0(4.3)ˆ22ˆ1trS(()ˆW)n0ˆ242ˆ(pp2)(2)1(Wy)diagee(,,ˆˆ,)eˆ212nˆ1Xdiagee(,,ˆˆ,)eˆ(4.4)212nˆ2221(eeˆ,ˆ,,eˆ)12n2ˆ4(pn2)其中,eˆyˆˆWyXˆ。通过式子(4.3),(4.4)可以得出影响矩阵为:ALT[()]ˆ1。注对于一阶空间自回归模型,由模型(2.4)易知,在方差扰动模式下,L()ˆ和简化为1yWWy11trS(()ˆW)22+trS(()ˆWS()ˆW)ˆˆˆL()(4.5)yWS()ˆynˆ442ˆ1yWdiag(,ˆˆ,,ˆ)212nˆ(ˆ2,ˆ2,,ˆ2)12n42ˆ其中,ˆyˆˆWy.第二节均值扰动模式下的局部影响分析一、扰动形式均值扰动与方差扰动的不同在于扰动方式是加在均值上,均值扰动的方式19 空间混合自回归模型的影响测度有很多种,可以直接在原来的均值上加扰向量,也可以在被解释变量上加上扰动向量来影响均值,还可以在解释变量上加上扰动来影响均值,本文采用的是在被解释变量上加上扰动向量来影响均值,以线性模型(4.1)为例来讨论均值扰动模式,扰动模型为2yX~N(0,I),(4.6)nTT其中(,,,)为扰动向量,无扰动时(0,0,,0)。12n01n二、空间混合自回归模型在均值扰动模式下的影响分析将下面对空间混合自回归模型的均值施加扰动,扰动方式如下2yWy()X,~N(0,I),nT其中,(,,,)。扰动后模型的被解释变量仍然是正态分布,该分布12n的密度函数形式如下nn1222fy(|)(2)I.().exp{S(y).().().(SSy)}n221其中,SX()。扰动后的似然函数为n2L()ln(2)lnS(()21[(()(Sy)X)(()(Sy)X)]22依据局部影响分析理论,均值扰动下L()ˆ见式(4.3),的定义见式(4.2),其中2L1{yWS()(()SyX)W(()SWWS())}T22L1SX()T22LyS()()SS()()SXS()24T均值扰动模式下如式子(4.7)20 空间混合自回归模型的影响测度yWI()ˆWeWˆn2ˆXI()ˆWnˆ2(4.7)eIˆ()ˆWn4ˆ(pn2)其中,eˆyˆˆWyXˆ。由式子(4.3),(4.7)可以得出空间混合自回归模型在均值扰动模式下影响矩阵为:ALT[()]ˆ1。注对于一阶空间自回归模型,由模型(2.4)易知,在均值扰动模式下,L()ˆ见式(4.5),简化为1(yWI(ˆW)W)ˆ2n()IWˆnˆ4其中,ˆyˆˆWy。第三节自变量扰动模式下的局部影响分析一、扰动形式对于一般情形,我们考虑的是所有的自变量都受扰动,但是由于扰动矩阵的复杂性,求不出最大影响曲率方向,因此,在实际中通常是通过扰动单个自变量,测量单个自变量对于模型的微小扰动所带来的变化,同样我们以线性模型(4.1)为例来讨论自变量扰动模式。扰动后模型(4.1)则表示为2y(X)X~N(0,I,)(4.8)jj()j()jnT其中,(,,,)。模型(4.8)表示自变量中第j个分量受到扰动,此处12nX,分别表示X去掉第j列以后所形成的np(1)阶矩阵以及去掉第j()jj()21 空间混合自回归模型的影响测度个分量以后所形成的(p1)维向量。二、空间混合自回归模型在自变量扰动模式下的影响分析本文对解释变量X其中一列进行扰动,扰动方式如下2YWY(X+)X,~N(0,I)11(1)(1)nT其中,(,,,)。扰动后模型的被解释变量仍然是正态分布,扰动后12n密度函数形式如下n11222fY(|)(2)I.().exp{S[(Y)()()(SSY)]}n221其中,S()((X)X)。扰动后的似然函数为11(1)(1)n2L()ln(2)lnS(())21[(()SY((X)X))(()SY((X)X))]211(1)(1)11(1)(1)2依据局部影响分析理论,均值扰动下L()ˆ见式(4.3),的定义见式(4.2),其中2L1()WYT212L2L2L1YS()2X2X111(1)(1)(,)TTT21(1)X1(1)2L1(YS()XX)24T11(1)(1)11111因此均值扰动模式下如式子(4.9)22 空间混合自回归模型的影响测度yWˆ12ˆyS()ˆ2ˆXˆX11(1)(1)2ˆˆX(4.9)1(1)ˆ2ˆyS()ˆˆˆXˆXˆ11(1)(1)1114ˆ(pn2)由式子(4.3),(4.9)可以得出空间混合自回归模型在均值扰动模式下出影响矩阵为:ALT[()]ˆ1。23 实例分析第五章实例分析局部影响分析中,采用最大特征向量法检测影响点或异常点时,本文用到的方法就是以局部最大影响方向的标准形式h作为诊断统计量,并用2/n作max为基准点。逐步局部影响分析中,本文采用单点移除法,判定基准中除了第一步是固定基准外,之后的每一步都是平均基准。但是给出的基准仅仅只是一种粗略的准则并不是一个严格的判断标准,而且观察法在识别影响点或异常点中也是一个值得借鉴的方法。因此本文在实例分析中,同时使用观察法和基准点来判别影响点或异常点。一阶空间自回归模型是空间混合自回归模型的特殊形式,在实例分析中,本文只验证了局部影响分析方法、逐步局部影响分析方法通过方差扰动、均值扰动、自变量扰动三种扰动模式在空间混合自回归模型中的有效性。第一节数据一在各种扰动模式下的局部与逐步局部影响分析结果一、数据介绍数据一考虑Columbusneighborhoodcrime数据(Anselin,L.,1988),此数据是关于美国俄亥俄州哥伦布邻里犯罪的数据,它在空间计量经济中是一个很著名的例子,但目前这组数据只有用到参数估计以及模型拟合上,还没有应用到统计诊断中,数据包括2个解释性变量共49个观测值以及一个49维的空间权重矩阵。模型中的y表示邻里犯罪事件,两个解释变量分别是家庭收入以及家庭价值。二、方差扰动模式下局部影响分析结果方差扰动模式下空间混合自回归模型的局部影响分析中,所有参数都认为24 实例分析是有兴趣参数,根据前面的推导结果,分别计算了最大特征值所对应的特征向量()h,图5.1给出了这个特征向量的散点图,其中临界值为0.2857,通过临maxi界值法和观察法从图中可以得出4号数据点为强影响点,17号数据点为影响点或异常点。10.940.80.70.60.5maxh0.40.3170.210340.135005101520253035404550index图5.1犯罪数据方差扰动的最大特征向量()hmaxi三、方差扰动模式下逐步局部影响分析方法结果对数据一在方差扰动模式下进行逐步局部影响分析结果如图5.2所示:25 实例分析0.50.500-0.5-0.50102030405001020304050(a)(b)0.50.500-0.5-0.50102030405001020304050(c)(d)图5.2犯罪数据方差扰动模式下逐步局部影响分析(a)全面扰动情况下h的散点图;max(b)4号数据点不参加扰动后h的散点图;(c)4,17号数据点不参加扰动后h散点maxmax图;(d)4,17,10号数据点不参加扰动后h的散点图;max图5.2(a)为全面扰动下h的散点图,其中q-value=6.5483,使用平均基准,max则只有4号数据点是强影响点。在下一步中,第4号点不再参加扰动,得到基于子集扰动的局部影响分析结果如图5.2(b)所示,得出q-value=1.9953,除了在第一步中识别出的4号点外,17号数据点也显著大于基准值。在第三步中,4、17号数据点不参加扰动,对剩余的数据点进行局部影响分析得到h的散点图max26 实例分析如5.2(c)所示,除了之前移除的4、17号数据点显著大于基准值外,10号数据点也大于基准值,且q-value=1.8102。因此在第四步中,4、10、17号数据点不参加扰动,对剩余数据进行局部影响分析结果如图5.2(d)所示:除了之前移除的4、10、17号数据点大于基准值之外,其余的数据点都在基准值之内或与基准值近似相等,且q-value=1.3312。此时逐步局部影响分析过程结束,通过临界值法和观察法判断出4号数据点为强影响点,17、10号数据点为影响点或异常点。四、均值扰动模式下局部影响分析结果均值扰动模式下空间混合自回归模型的局部影响分析中,所有参数都认为是有兴趣参数,根据前面的推导结果,分别计算了最大特征值所对应的特征向量()h,图5.3给出了这个特征向量的散点图,其中临界值为0.2857,通过临maxi界值法和观察法从图中可以得出4、17号数据点为影响点或异常点。0.70.60.54170.4maxh0.30.20.1005101520253035404550index图5.3犯罪数据均值扰动的最大特征向量()hmaxi27 实例分析五、均值扰动模式下逐步局部影响分析方法结果对数据一在均值扰动模式下进行逐步局部影响分析,考虑所有参数都是有兴趣的参数,结果如图5.4所示0.50.500-0.5-0.50102030405001020304050(a)(b)0.50-0.501020304050(c)图5.4犯罪数据均值扰动模式下的逐步局部影响分析(a)全面扰动下h的散点图;max(b)4号数据点不参加扰动后h的散点图;(c)4,17号数不参加扰动后h的散点图。maxmax图5.4(a)为全面扰动下h的散点图,q-value=6.6107,使用平均基准,则max有4、17号数据明显大于基准值。本文在迭代过程中所使用的方法是单点移除法,也就是说在每一步只移出一个点,因此在第二步中,移除4号点不参加扰动,对剩余的数据点进行局部影响分析,得到结果如图5.4(b)。仍然是只有4、17号数据点显著大于基准值,q-value=5.0809。因此在在第三步中,4、17号数据点不参加扰动,对剩余的数据点进行局部影响分析得到h的散点图如5.4(c)。max28 实例分析图5.4(c)与第二步的结果图5.4(b)形式差不多,没有其他的点大于基准值,q-value=3.4010。此时逐步局部影响分析过程结束,且判断出4、17号数据点为影响点或异常点。六、自变量扰动模式下局部影响分析结果自变量扰动模式下空间混合自回归模型的局部影响分析中,所有参数都认为是有兴趣参数,针对本数据,我们扰动了数据中的第一个自变量,即家庭收入。根据前面的推导结果,分别计算了最大特征值所对应的特征向量()h,maxi图5.5给出了这个特征向量的散点图,其中临界值为0.2857,通过临界值法和观察法从图中可以得出16、17和49号数据点可能存在异常。0.350.30.250.2maxh0.150.10.05005101520253035404550index图5.5犯罪数据自变量扰动的最大特征向量()hmaxi29 实例分析七、在自变量扰动模式下逐步局部影响分析结果数据一在自变量扰动模式下进行逐步局部影响分析,考虑所有参数都是有兴趣的参数,结果如图5.6所示:0.50.500-0.5-0.50102030405001020304050(a)(b)0.50.500-0.5-0.50102030405001020304050(c)(d)0.50-0.501020304050(e)图5.6犯罪数据自变量扰动模式下的逐步局部影响分析(a)全面扰动下h的散点图;max(b)16号数据点不参加扰动后h的散点图;(c)16,17号数据点不参加扰动后h的散maxmax点图;(d)16,17,49号数不参加扰动后h的散点图;(e)16,17,49,4号数据点不max参加扰动后h的散点图。max图5.6(a)为全面扰动下h的散点图,其中q-value=7.000,使用平均基准,max则有16,17,49号数据是强影响点。本文采用的是单点移除法,因此在下一步中,第16号点不再参加扰动,得到基于子集扰动的局部影响分析结果如图5.6(b)30 实例分析所示。得出q-value=6.3879,仍然识别出16,17,49号数据点基于临界值之上。在下一步,第16,17号数据点不参加扰动,得到h的散点图如5.6(c)所示。仍max然识别出16,17,49号数据点基于临界值之上,q-value=5.8444。在第四步中,16,17,49号数据点不参加扰动,对剩余数据进行局部影响分析结果如图5.6(d)所示。除了之前移除的16,17,49号数据点大于基准值之外,4号数据点也在临界值之外,q-value=5.3177。在下一步,16,17,49,4号数据点不参加扰动,对剩余数据进行局部影响分析结果如图5.6(e)所示。除了之前移除的16,17,49,4号数据点之外,其余的数据点都在基准值之内或与基准值近似相等,且q-value=5.3143。此时逐步局部影响分析过程结束,且判断出16,17,49,4号数据点为影响点或异常点。第二节数据二在各种扰动模式下的局部与逐步局部影响分析结果一、数据介绍本数据是关于长江三角洲地区15个城市2002年经济发展水平与居民收入之间的关系,被解释变量y表示居民收入水平,用人均可支配收入来代表。解释变量为经济发展水平,用人均GDP来代表。本数据来源于上海、江苏、浙江三省2002年统计年鉴。这15个城市分别为:上海、南京、镇江、苏州、无锡、常州、南通、扬州、泰州、杭州、嘉兴、湖州、宁波、绍兴、舟山。本数据在李序颖、顾岚(2004)的空间自回归模型及其估计一文中被用于空间混合自回归模型的拟合,从拟合结果可以看出解释变量对被解释变量的解释效应显著,同时被解释变量表现出很强的空间依赖。二、方差扰动模式下局部影响分析结果方差扰动模式下空间混合自回归模型的逐步局部影响分析中,所有参数都认为是有兴趣参数,根据前面的推导结果,分别计算了最大特征值所对应的特31 实例分析征向量()h,图5.7给出了这个特征向量的散点图,通过观察法知1、4、5maxi号数据点数值相对比较大。临界值为0.5164,因此很明显5号数据点为影响点或异常点。1、4号数据点比较难判定。0.90.80.70.60.5maxh0.40.30.20.10051015index图5.7长三角数据方差扰动的最大特征向量()hmaxi三、方差扰动模式下逐步局部影响分析结果对数据二在方差扰动模式下进行逐步局部影响分析,结果如图5.8所示32 实例分析0.50.500-0.5-0.5051015051015(a)(b)0.50.500-0.5-0.5051015051015(c)(d)图5.8长三角经济的方差扰动模式下逐步局部影响分析(a)全面扰动下h的散点图;max(b)5号数据点不参加扰动后h的散点图;(c)5,1号数据点不参加扰动后h的散点maxmax图;(d)5,1,4号数据点不参加扰动后h的散点图;max图5.8(a)为全面扰动下h的散点图,其中q-value=3.6483,使用平均基准,max则只有5号数据是强影响点。因此在下一步中,第5号点不再参加扰动,得到基于子集扰动的局部影响分析结果如图5.8(b)所示,得出q-value=1.6404,除了在第一步中识别出的5号点外,1号数据点也显著大于基准值。在第三步中,5、1号数据点不参加扰动,对剩余的数据点进行局部影响分析得到h的散点图如max5.8(c)所示,除了之前移除的4、17号数据点显著大于基准值外,4号数据点也大于基准值,且q-value=0.8547。因此在第四步中,5、1、4号数据点不参加扰动,对剩余数据进行局部影响分析结果如图5.8(d)所示:除了之前移除的5、1、4号数据点大于基准值之外,其余的数据点都在基准值之内或与基准值近似相等,且q-value=0.4541。此时逐步局部影响分析过程结束,且判断出5号数据33 实例分析点为强影响点,1、4号数据点为影响点或异常点。四、均值扰动模式下局部影响分析结果均值扰动模式下空间混合自回归模型的逐步局部影响分析中,所有参数都认为是有兴趣参数,根据前面的推导结果,分别计算了最大特征值所对应的特征向量()h,图5.9给出了这个特征向量的散点图,用观察法是很难判断哪些maxi点是影响点或异常点,因为大部分数据点的值都比较大,我们知道临界值为0.5164,因此可能1号数据点为影响点或异常点,但也不是很明显。0.70.60.50.4maxh0.30.20.10051015index图5.9长三角均值扰动的最大特征向量()hmaxi34 实例分析五、均值扰动模式下逐步局部影响分析结果对数据二在均值加权扰动方式下进行逐步局部影响分析,结果如图5.10所示0.80.80.60.60.40.40.20.200-0.2-0.2-0.4-0.4-0.6-0.6-0.8-0.8051015051015(a)(b)图5.10长三角经济数据均值扰动下逐步局部影响分析(a)全面扰动下h的散点图;max(b)1号数据点不参加扰动后h的散点图。max图5.10(a)为全面扰动下h的散点图,其中q-value=3.6512,使用平均基准,max则只有1号数据是强影响点。因此在下一步中,第1号数据点不参加扰动,得到基于子集扰动的局部影响分析结果如图5.10(b)所示,除了在第一步移除的1号数据点大于基准值之外,其余的数据点都在基准值之内。此时逐步局部影响分析过程结束,且判断出1号数据点为影响点或异常点。35 实例分析第三节分析结果总结一、局部影响分析结果总结从两组数据分别在三种扰动方式下的结果可以看出,局部影响分析方法在识别空间数据中的影响点或异常点时是有效的。数据一在方差扰动模式下,局部影响分析方法识别出4、17号数据点为影响点或异常点,10号数据点相比其它数据点虽比较突出,但由临界值法不能判断它是不是影响点或异常点。数据一在均值扰动模式下,局部影响分析方法诊断出的影响点或异常点仍是4、17号数据点。自变量扰动模式下,局部影响分析方法没有检测出4号数据点是影响点或异常点,除了检测出17号数据点之外,还检测出16、49号数据点是明显的影响点或异常点。数据二在方差扰动模式下识别出1、4、5号数据点为影响点或异常点,而在均值扰动模式下只能识别出1号数据点为影响点或异常点。对于数据二没有考虑到自变量扰动模型下影响点或异常点的识别是因为数据二本身只有一个自变量,自变量扰动得出来的效果与均值扰动得出来的效果差别不大。从数据一来看虽然方差扰动以及均值扰动模式识别出的影响点或异常点是相同的,但是明显方差扰动模式的效果更好。数据二的诊断结果更能说明方差扰动比均值扰动更稳定。因为在方差扰动模式下,除了几个影响点或异常点的值比较大之外,其他数据点都很小,这样影响点或异常点很明显,易于判断,而在均值扰动时,各个数据点的值都是有起伏的波动,影响点或异常点与正常点之间的界限相对方差扰动来说没有那么明显。在自变量扰动模式下,从数据一看到的效果与方差扰动及均值扰动两总扰动模式的效果差别比较大,检测出来的影响点或异常点也不一样,这与数据本身的关系应该很大。二、逐步局部影响分析结果总结针对两种数据应用逐步局部影响分析方法得出的结果来看,逐步局部影响分析方法在识别空间数据中的影响点或异常点是有效的。数据一在方差扰动模式下,除了确定4、17号数据点是明显的影响点或异常点之外,能明确确定10号数据点为影响点或异常点。在自变量扰动模式下除了能检测出16、17、49号36 实例分析数据点为影响点或异常点之外,仍然能检测出4号数据点为影响点或异常点。在数据二中,虽然在两种扰动方式下检测出的影响点或异常点与局部影响分析方法得到的结果数一样的,但是在均值扰动模式下,逐步局部影响分析方法更能明确1号数据点是影响点或异常点。不同的扰动方式下迭代过程以及去点过程差别很大。在方差扰动模式下,每一次迭代时都有很明确要去除的点,而且检测出来的影响点或异常点与临界值分的很清楚。在均值扰动模式下效果相对方差扰动模式下的效果要差一些。而在自变量扰动模式下,得到的影响点或异常点都不是很突出,而且各个点之间的波动很大,这对于判断影响点或异常点不是很好。对于局部影响分析方法以及逐步局部影响分析方法,从检测影响点或异常点的效果来说,逐步局部影响分析方法会更好一些,它能有效的识别出影响点或异常点以及数据中可能存在的Masking效应。同时该方法所使用的基准值是在扰动向量的合理约束下得到的,基于这一基准值的应用是非常方便和有效的。与实际数据相对比,数据一与数据二中,检测出来的影响点或异常点确实存在异常。37 研究结论及展望第六章研究结论及展望第一节研究结论本文研究了空间混合自回归模型以及一阶空间自回归模型通过方差扰动、均值扰动以及自变量扰动三种扰动模式下的局部影响分析,推导出了两个模型分别在方差扰动、均值扰动、自变量扰动三种扰动模式下的影响曲率。为了验证局部影响方法在诊断空间混合自回归模型中影响点或异常点的有效性,以及检验逐步局部影响分析方法在空间数据中避免Masking效应的有效性。本文对Anselin(1988)中的美国俄亥俄州邻里犯罪数据以及长江三角洲2002年经济数据两组数据进行了影响点或异常点的检测,在局部影响分析中采用最大特征向量法来检测影响点或异常点,并以2/n为临界值,结合观察法以及临界值法诊断出数据中的影响点或异常点,从结果中可知,在这三种扰动模式下,局部影响分析方法在诊断空间混合自回归模型(或空间数据)中的影响点或异常点是有效的。在逐步局部影响分析方法中,采用单点移除法并以平均基准为判别基准来检测空间数据中的影响点或异常点。从检测结果中可知逐步局部影响分析方法在检测空间数据中的影响点或异常点时是有效的。比局部影响分析方法更好的一点是,在逐步局部影响分析中,通过q-value值的大小能判断识别出来的数据点是否为强影响点。第二节创新与展望本文的创新点主要有两点:一是对空间混合自回归模型以及一阶空间自回归模型进行诊断,用局部影响应分析方法分别推导出这两个模型在三种扰动模式下的影响曲率。二是为了能更好的避免masking效应,将逐步局部影响分析方法用到空间混合自回归模型中,判断该方法在空间模型中的有效性。本文的研究成果在空间模型的诊断领域上起到抛砖引玉的作用,局部影响分析方法以及38 研究结论及展望逐步局部影响分析方法在更复杂的空间回归模型中的推广还值得我们继续研究。现今对空间回归模型应用的文献也相对较少,在后期的研究中,我们可以将该模型的应用推广到更多其他的领域。39 参考文献参考文献[1]陈杰.MATLAB宝典[M].北京:电子工业出版社,2010.3[2]董霖.MATLAB使用详解[M].北京:科学出版社,2008.8[3]龚纯,王正林.MATLAB语言常用算法程序[M].北京:电子工业出版社,2008.6[4]龚建朝,喻胜华,郭蕾.局部影响分析中的一种新二阶方法[J].数学理论与应用,2007:95-97[5]黄梅.逐步局部影响分析及应用[D].云南:云南大学,2010.[6]李军利,宋亚杰.基于ArcEngine的空间权重矩阵的实现与应用[J].测绘与空间地理信息,2010(6)[7]李序颖,顾兰.空间自回归模型及其估计[J].统计研究,2004(6):48-51.[8]刘仲刚,李满春,孙燕.面向离散点的空间权重矩阵生成算法与实证研究[J].地理与地理信息科学,2006(3):53-56.[9]刘旭华,王劲峰.空间权重矩阵的生成方法分析与实验[J].地球信息科学,2002(2):38-44.[10]吕敏红,郭鹏江.时间序列的局部影响分析[J].数理科学与信息科学,2011.[11]马国栋,吴喜之.随机波动模型的局部影响分析[J].数学的实践与认识,2008.[12]潘海燕,程朋根,肖根如,陈斐.基于ArcObjecets的空间权重矩阵的建立与实现[J].测绘科学,2007(11)[13]沈体雁,冯等田,孙铁山.空间计量经济学[M].北京:北京大学出版社,2010.10:68-73[14]石磊.多水平模型及其统计诊断[M].北京.科学出版社,2008:14-26[15]王松桂.线性模型引论[M]北京:科学出版社,2004[16]韦博成,鲁国斌,史建清.统计诊断引论[M].南京:东南大学出版社,1991:302-331[17]韦博成,林金官,解锋昌.统计诊断[M].北京:高等教育出版社,2009.3:101-130[18]解锋昌.李爱萍.李勇.具有结构变化的线性回归模型的局部影响分析[M].河海大学学报(自然科学版),2005:717-720.[19]徐仲.矩阵论简明教程[M].北京:科学出版社,200540 参考文献[20]张嘉为,陈曦,汪寿阳.新的空间权重矩阵及其在中国省域对外贸易中的应用[J].系统工程理论与实践,2009(11)[21]张尧庭.空间统计学简介[J].统计教育.1996.1[22]朱仲以.韦博成.半参数非线性模型的统计诊断与影响分析[J].应用数学学报,2001:568-579.[23]AnselinL.SpatialEconometrics:methodsandmodels[M].Dordrecht:KluwerAcademicPublishers,1988[24]Anselin,L.andFlorax,R.J.G.(1994)SmallSamplePropertiesofTestsforSpatialDependenceinRegressionModels:SomeFurtherResults.Researchpaper9414,RegionalResearchInstitute,WestVirginiaUniversity.[25]Atkinson,A.C.Plot,TransformationsandRegression[J].Oxford:ClarendonPress,1985[26]Atkinson,A.C.Maskingunmasked[J],Biometrika,1986(73),533-541[27]Atkinson,A.C.Transformationunmasked[J].Technometrics,1988(30),311-318.[28]Backman,R.J.,Nachtsheim,C.J.andCook,R.D.(1987)Diagnosticsformixed-modelanalysisofvariance[J].Technometrics,29,413-426.[29]Beckman,R.DiscussiononAssessmentoflocalinfluence[J](byCook,R.D.)JournaloftheRoyalStatisticalSociety.SeriesB,1986(48),161±162.[30]Bruce,A.G.andMartin,R.D.Leave-k-outdiagnosticsfortimeseres[J].JournalofTheRoyalStatisticalSocietyB,1989(51),363-424[31]Chatterjee,S.andHadi,A.S.SensitivityAnalysisinLinearRegression[J].JohnWiley:NewYork,1988[32]Cliff,A.D.andJ.K.Ord.TestingforSpatialAutocorrelationamongRegressionResiduals[J],GeographicalAnalysis,1972.4:267-284[33]Cliff,A.D.andJ.K.Ord.SpatialProcesses:ModelandApplication[M],London:Pion.1981[34]Cook,R.D.Influentialobservationsinregression[J].JournalofAmericanStatisticalAssociation74.1979:169-174.[35]Cook,R.D.AssessmentofLocalInfluence[J].JournaloftheRoyalStatisticalSociety.41 参考文献SeriesB,1986(48):133-169.[36]Fung,W.K.andKwan,C.W.Anoteonlocalinfluencebasedonnormalcurvature[J].JournaloftheRoyalStatisticalSociety.SeriesB,1997:839-843.[37]Laurent,T.ST.andCook,R.D.Leverage,localinfluenceandcurvatureinnonlinearregression[J].Biometrika1993(80),99-106.[38]Lawrance,A.J.Regressiontransformationdiagnosticsusinglocalinfluence[J].JournaloftheAmericanStatisticalAssociation,1988,83:1067-1072.[39]Lee,S.Y.andWang,S.J.,Sensitivityanalysisofstructureequationmodel[J].Psychometrika,1996(61),93-108[40]LeSage,JamesP,.TheTheoryandPracticeofSpatialEconometrics[M].UniversityofToledo.Toledo,Ohio,1999.[41]Lesaffre,E.andVerbeke,G.Localinfluenceinlinearmixedmodel[J].Biometrics,1998(54):570-582[42]Loynes,R.M.DiscussiononAssessmentoflocalinfluence[J](byR.D.Cook).JournaloftheRoyalStatisticalSociety.SeriesB,1986(48),156±157.[43]LuJD.,KoD.andChangT.Thestandardizedinfluencematrixanditsapplication[J].JournaloftheAmericanStatisticalAssociation,1997(92),1572-1580.[44]Poon,W.Y.andPoon,Y.S.Conformalnormalcurvatureandassessmentoflocalinfluence[J].JournaloftheRoyalStatisticalSociety.SeriesB,1999:51-61.[45]Prescott,P.DiscussiononAssessmentoflocalinfluence[J](byR.D.Cook).JournaloftheRoyalStatisticalSociety.SeriesB,1986(48),161.[46]Rousseeuw,P.J.andLeroy,A.M.RobustRegressionandOutlierDetection[J].NewYork:Wiley.1987[47]Schall,R.andDunne,T.T.Anoteontherelationshipbetweenparametercollinearityandlocalinfluence[J].Biometrika,1992(79),399±404.[48]Shi,L.Localinfluenceinprincipalcomponentsanalysis[J].Biometrika1997(84):175-186[49]Shi,LandMeiH.,Stepwiselocalinfluenceanalysis[J].ComputationalStatisticsand42 参考文献DataAnalysis55(2011)973-982[50]Shi,L.andOjeda,M.M.,Localinfluenceinmultilevelregressionforgrowthcurve[J].JournalofMultivariateAnalysis2004(91):282-304.[51]Shi,L.GeneralizedInfluenceFunctionandLocalInfluence[J].ContributedIntheWorkshipofInternationalConferenceonMultivariateAnalysisanditsapplication,Kunming,1993.[52]Shi,L.AssessingLocalInfluenceinmultivariatenormaldata[J].MathematicalStatisticsandAppliedProbability,1994(9(3)):23-24.[53]Shi,L.andChen,G.Influencemeasuresingenerallinearmodelswithcorrelatederrors[J].AmericanStatistician,2009(63(1)),40-42.[54]Shi,L.andChen,G.Outlierdetectioninmultilevelmodels[J].JournalofStatisticalPlanningandInference.2008b:138,3189-3199[55]Shi,L.andChen,G.LocalInfluenceinMultilevelModels[J].CanadianJournalofStatistics.2008c:36(2),259-275.[56]Shi,L.and.Wang.X.R.Local.InfluenceinlinearRidgeRegression[J].ComputationalStatisticsandDataAnalysis.1999:Vol31,No.3341-356.[57]TsaiCL,andWu.X.Z.Assessinglocalinfluenceinlinearregressionmodelswithfirst-orderautoregressiveorheteroscedasticerrorstructure[J].StatisticsandProbabilityLetters,1992,14:247-252[58]Thomas,W.andCook,R.D.Assessinginfluenceonpredictionsingeneralizedlinearmodels[J].Technometrics,1990(32),59-65.[59]Wu.X.Z.,Luo.Z.,1993,Second-oderapproachtolocalinfluence[J].JournaloftheRoyalStatisticalSociety.SeriesB55,929-936.[60]Zhu,H.T.andLee,S.Y.Localinfluenceforincomplete-datamodels[J].JournaloftheRoyalStatisticalSociety.SeriesB,2001:111-12643 致谢致谢时光如梭,三年的研究生生涯即将结束。回首三年的求学生涯,有成功时的喜悦,也有失败时的难过,还有为一目标不懈奋斗的汗水。一路走来,非常庆幸有许许多多的老师、学长、朋友、同学、亲人的鼓励和帮助。在这里,我要向所有给过我关心以及支持的人致以深深的感谢。首先要感谢导师石磊教授,本论文从选题、写作和完成都离不开石磊教授的指导。尽管石老师工作繁忙,学院任事务与科研事务应接不暇,但他总会在百忙之中抽出时间来关心我论文的进展情况。经过老师的点拨,让我在统计诊断这个方向上的学习事半功倍,同时老师严谨治学的态度让我感触良多。同时,还要感谢鲁筠老师,论文的修改和完善,离不开鲁老师的悉心指导。对鲁老师的帮助和关心,我只有内心的感激,在此向鲁老师表示衷心的感谢!感谢云南财经大学的各位老师在我求学期间的教诲和帮助,你们渊博的专业知识以及严谨的治学态度让我敬仰。感谢我的同学们,三年来是你们的陪伴和帮助再一次让我体会到友情的温暖和幸福。同窗之谊,我将终身难忘。感谢我的父母、亲人对我学业的支持,20年的求学之路,是你们无私的关爱和支持让我走到了今天,我会在工作中继续努力,坚定信念,开创一片属于自己的天地。44 本人在学期间研究成果本人在学期间研究成果1、雷健敏等,杨翠平主编第五章.云南高校贫困生数据调查和建立助困评价体系研究[M].云南:云南科技出版社,2012.2.参与石磊教授云南省财政厅项目《全省家庭经济困难学生数据调查和建立助困评价体系研究》,负责贫困学生基本情况的问卷调查、数据分析及报告的撰写。3.参与云南财经大学研究生创新课题《云南高校贫困学生助学贷款高违约率问题的博弈分析》,负责项目中模型分析。4.参与云南财经大学研究生创新课题《统计数据质量评估及诊断方法研究》,负责项目中数据分析。45

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭