回归分析中异常值的诊断与处理.doc

回归分析中异常值的诊断与处理.doc

ID:55107213

大小:1.09 MB

页数:20页

时间:2020-04-27

回归分析中异常值的诊断与处理.doc_第1页
回归分析中异常值的诊断与处理.doc_第2页
回归分析中异常值的诊断与处理.doc_第3页
回归分析中异常值的诊断与处理.doc_第4页
回归分析中异常值的诊断与处理.doc_第5页
资源描述:

《回归分析中异常值的诊断与处理.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、回归分析中异常值的诊断与处理1引言对调查得到的大量原始数据进行加工处理,提取其中有用的信息,即统计整理,是进一步进行统计分析的前提.但是通常的统计整理方法往往都对样本数据有一个前提假设,即样本数据是来自同一个总体,而这个假设有时却不能成立.原因一是由客观因素造成的,如总体条件的突然变化或人们未知的某个因素的突然出现等等;二是由主观方面的因素造成的,即人为的差错如调查人员读错或抄错数据,不小心把另一些不同条件下的样本数据混杂进来.当样本中的个别数据明显的偏离样本中其余数据时,这些数据可能是来自不同的总体,我们称这样的数据为异常数据.若对混有

2、异常数据的样本按常规进行统计整理、分析、推断,往往会得出不符合实际的结论.本文就样本中的异常数据提出了诊断方法和处理方法,并结合实例说明了简单回归中上述方法的具体应用.2异常值的概念所谓异常值就是在所获统计数据中相对误差较大的观察数据,也称奇异值(Outliers).狭义地定义异常值就是一批数据中有部分数据与其余数据相比明显不一致的数据,也称离群值.社会经济统计中一切失实数据统称为异常值.由于人为或随机因素的影响,失实的数据随时都有可能出现,因而统计数据中的任何一个都有可能成为异常值,而狭义界定的异常值是指离群值,如果把统计数据按由小到大

3、排列,若有异常值,它必位于其数据的两端,左端称为异常小值,右端的称为异常大值.残差:考虑线性回归模型,,.其中,,,.分量形式为20,. 定义为残差向量,其中称为拟合值向量,为在模型下的最小二乘估计.如果用表示的个行向量,则称,,为第次试验或观测的残差.对简单回归,,,.则,,其中.于是,异常值就是在回归分析中,一组数据如果它的残差较其它组数据的残差大的多,则称此数据为异常值.异常值的出现有主客观的原因.主观上抽样调查技术有问题,疏忽大意记错,或人为的虚报,谎报数据等都可能导致异常数据,这直接影响了统计数据的质量;客观上某些样品由于特定原

4、因在某些变量上的确表现突出,明显超出平均水平,这也可能产生异常值.异常值的存在必将导致相应统计分析误差增大,会对分析结果(平均值与标准差)产生重要影响,会降低测量的精度.如果不预先处理它们,用通常的统计整理方法所得出的结论可靠性差.而异常值的诊断与处理是保证原始数据可靠性,平均值与标准差计算准确性的前提.3异常值的诊断方法在讨论异常值诊断问题时,通常要假设所得样本观测值在某中意义下遵从一定的分布规律.拿到一批数据,若能从其实际背景中明确看出它服从某中分布形式时,一般的做法是在这种分布假设下,导出能较好反映异常值与正常值差异的统计量,在没有

5、异常值的原假设下作假设检验.以下给出两种检验方法.3.1F分布检验法20学生化残差:考虑线性回归模型,记,称为拟合值向量,称其第个分量为第个拟合值,则,这里.文献中通常称为帽子矩阵.前面已经定义了,,为第次试验或观测的残差.将其标准化为,再用代替,得到所谓学生化残差,,这里为的第个对角元,.把正态线性回归模型改写成分量形式,,,这里,相互独立.如果第组数据是一个异常点,那么它的残差就很大.它的残差之所以很大是因为它的均值发生了非随机性漂移.从而.这产生了一个新的模型         记.将模型改写成矩阵的形式,,       模型和称为均

6、值漂移线性回归模型.要判定不是异常点,等价于检验假设.引理用,和分别表示从、和剔除第行所得到的向量或矩.20从线性回归模型剔除第组数据后,剩余的组数据的线性回归模型为,,.   将从这个模型求到的的最小二乘估计记为,则.证明:因为.  设为可逆阵,均为向量.用恒等式有,      这里为的第行.将上式两边右乘,并利用以及式,有. 将式右乘,可以得到如下关系式.将其代入式,得到.引理对均值漂移线性回归模型,和的最小二乘估计分别为和,20其中为从非均值漂移线性回归模型剔除第组数据后得到的的最小二乘估计.,为的第个对角元.为从模型导出的第个残差

7、.证明:显然,,.记.则.于是,根据定义.根据分块矩阵的逆矩阵公式(见附录),以及.再由引理知命题得证.现在应用引理来求检验的检验统计量.注意到,对现在的情形,在约束条件下,模型就化为模型,于是模型无约束情形下的残差平方和.而模型的无约束残差平方和.    利用引理得20这里为第组数据的残差.利用和的具体表达式将式作进一步化简:=,其中.根据引理,所求的检验统计量为.于是,我们证明了如下事实:定理对于均值漂移线性回归模型,如果假设成立,则.据此,我们得到如下检验:对给定的,若,则判定第组数据为异常点.当然,这种检验会犯“判无为有”的错误,

8、也就是可能不是异常点,而被误判为异常点.但我们犯这种错误的概率只有,事先我们可以把它控制的很小.显然,根据分布与分布的关系,我们也可以用检验法完成上面的检验.若定义20.对给定的,当时,我们拒

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。