算法大全第30课时__偏最小二乘回归.pdf

算法大全第30课时__偏最小二乘回归.pdf

ID:51432242

大小:167.16 KB

页数:12页

时间:2020-03-11

算法大全第30课时__偏最小二乘回归.pdf_第1页
算法大全第30课时__偏最小二乘回归.pdf_第2页
算法大全第30课时__偏最小二乘回归.pdf_第3页
算法大全第30课时__偏最小二乘回归.pdf_第4页
算法大全第30课时__偏最小二乘回归.pdf_第5页
资源描述:

《算法大全第30课时__偏最小二乘回归.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第三十章偏最小二乘回归在实际问题中,经常遇到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的经典多元线性回归分析(MLR),提取自变量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二乘(PLS)回归方法。偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。偏最小二乘回归分析在建模过程中集中了主

2、成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。本章介绍偏最小二乘回归分析的建模方法;通过例子从预测角度对所建立的回归模型进行比较。§1偏最小二乘回归考虑p个变量y,y,?,y与m个自变量x,x,?,x的建模问题。偏最小二乘12p12m回归的基本作法是首先在自变量集中提出第一成分t(t是x,?,x的线性组合,且111m尽可能多地提取原自变量集中的变异信息);同时在因变量集中也提取第一成分u,1并要求t与u相关程度达

3、到最大。然后建立因变量y,?,y与t的回归,如果回归方111p1程已达到满意的精度,则算法中止。否则继续第二对成分的提取,直到能达到满意的精度为止。若最终对自变量集提取r个成分t,t,?,t,偏最小二乘回归将通过建立12ry,?,y与t,t,?,t的回归式,然后再表示为y,?,y与原自变量的回归方程式,1p12r1p即偏最小二乘回归方程式。为了方便起见,不妨假定p个因变量y,?,y与m个自变量x,?,x均为标准1p1m化变量。因变量组和自变量组的n次标准化观测数据阵分别记为⎡y11?y1p⎤⎡x11?x1m⎤⎢⎥⎢⎥F=@@,E=@@0⎢⎥0⎢⎥⎢y?y⎥

4、⎢x?x⎥⎣n1np⎦⎣n1nm⎦偏最小二乘回归分析建模的具体步骤如下:-531-(1)分别提取两变量组的第一对成分,并使之相关性达最大。T假设从两组变量分别提出第一对成分为t和u,t是自变量集X=(x,?,x)的1111mTT线性组合:t=wx+?+wx=wX,u是因变量集Y=(y,?,y)的线性组11111mm111pT合:u=vy+?+vy=vY。为了回归分析的需要,要求:11111pp1①t和u各自尽可能多地提取所在变量组的变异信息;11②t和u的相关程度达到最大。11由两组变量集的标准化观测数据阵E和F,可以计算第一对成分的得分向量,记00为tˆ

5、和uˆ:11⎡x11?x1m⎤⎡w11⎤⎡t11⎤tˆ=Ew=⎢@@⎥⎢@⎥=⎢@⎥101⎢⎥⎢⎥⎢⎥⎢x?x⎥⎢w⎥⎢t⎥⎣n1nm⎦⎣1m⎦⎣n1⎦⎡y11?y1p⎤⎡v11⎤⎡u11⎤⎢⎥⎢⎥⎢⎥uˆ=Fv=@@@=@101⎢⎥⎢⎥⎢⎥⎢y?y⎥⎢v⎥⎢u⎥⎣n1np⎦⎣1p⎦⎣n1⎦第一对成分t和u的协方差Cov(t,u)可用第一对成分的得分向量tˆ和uˆ的内积111111来计算。故而以上两个要求可化为数学上的条件极值问题:TT⎧==wEFx⇒max⎪1101011001⎨T2T2⎪⎩w1w=w1=1,v1v1=v1=1

6、TT利用Lagrange乘数法,问题化为求单位向量w和v,使θ=wEFv⇒最大。问1111001TT题的求解只须通过计算m×m矩阵M=EFFE的特征值和特征向量,且M的最大特000021T征值为θ,相应的单位特征向量就是所求的解w,而v可由w计算得到v=FEw。11111001θ1(2)建立y,?,y对t的回归及x,?,x对t的回归。1p11m1假定回归模型为-532-⎧E=tˆαT+E⎪0111⎨T⎪⎩F=uˆβ+F0111TT其中α=(α,?,α),β=(β,?,β)分别是多对一的回归模型中的参数向量,1111m1111pE和F是残差阵。回归系数向量α

7、,β的最小二乘估计为11112⎧α=ETtˆtˆ⎪1011⎨,2Tˆˆ⎪β=Ftt⎩1011称α,β为模型效应负荷量。11(3)用残差阵E和F代替E和F重复以上步骤。1100记Eˆ=tˆαT,Fˆ=tˆβT,则残差阵E=E−Eˆ,F=F−Fˆ。如果残差阵F0110111001001中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取成分。否则用残差阵E和F代替E和F重复以上步骤即得:1100TTw=(w,?,w);v=(v,?,v)分别为第二对成分的权数。而2212m2212ptˆ=Ew,uˆ=Fv为第二对成分的得分向量。2

8、12212ETtˆFTtˆ1212α=,β=分别为X,Y的第二对成

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。