语言基于多元回归分析的大豆植株性状与产量的回归分析

语言基于多元回归分析的大豆植株性状与产量的回归分析

ID:12768441

大小:265.50 KB

页数:10页

时间:2018-07-18

语言基于多元回归分析的大豆植株性状与产量的回归分析_第1页
语言基于多元回归分析的大豆植株性状与产量的回归分析_第2页
语言基于多元回归分析的大豆植株性状与产量的回归分析_第3页
语言基于多元回归分析的大豆植株性状与产量的回归分析_第4页
语言基于多元回归分析的大豆植株性状与产量的回归分析_第5页
资源描述:

《语言基于多元回归分析的大豆植株性状与产量的回归分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于多元回归分析的大豆植株性状与产量的回归分析1.背景与问题1.1背景选育高产优质的作物品种、采用高效的栽培技术,一直是农业科研工作者研究的主题。多年以来,人们为了解作物植株性状与产量的关系,以便做到更有效的性状选择和采取相应的栽培措施,进行了一系列的研究,关于作物产量与施肥、土壤条件、气候因子等的关系研究报道也较多。但影响大豆产量的植株自身因素还有许多种,有待于继续探究。1.2问题本文主要研究在作物植株诸多性状如生育日数x1、株高x2、有效分枝数x3、主茎节数x4、单株荚数x5、单株粒数x6、每荚粒数x7、百粒重x8、单株粒重x9,九种大豆植株性状与小区产量y之间的关系,从中找

2、出产量的主导性状因子,为大豆高产育种中各农艺性状的选择和高产栽培技术提供理论依据。2.程序设计与数据分析2.1程序设计本文将大豆植株的九种性状与小区产量的多元回归分析基础上剔除自相关性强的自变量、建立较高精度和稳定产量回归方程分析,本文利用多元回归分析,首先完成初步的回归分析;利用残差分析对回归模型的假设条件即随机误差项是否独立同分布进行检验;通过共线性诊断、逐步回归的方法,建立产量回归模型,进行产量分析,从而的出对大豆产量影响较大的植株性状,对各回归变量的作用大小作出评价。2.2分析方法2.2.1多元线性回归模型的建立多元线性回归分析是研究一个响应变量与多个自变量间呈线性相关关

3、系的问题,这种关系可以用多元线性回归方程来描述:式中为回归常数项,(i=1,2,……k)称为偏回归系数,其意义为当其它自变量对响应变量的影响固定时,对应的第i个自变量对的线性影响程度。2.2.2残差分析残差是指由回归方程计算所得的预测值与实际样本值之间的差距,定义为,它是回归模型的估计值,由多个形成的序列称为残差序列,如果回归方程能够很好的反映被解释变量的特征和变化规律,那么残差序列中不应包含明显的规律性和趋势性。2.2.3多重共线性检验与修正——逐步回归法逐步回归的基本思想是:对全部因子按其对影响程度大小(偏回归平方的大小),从大到小地依次逐个地引入回归方程,并随时对回归方程当

4、时所含的全部变量进行检验,看其是否仍然显著,如不显著就将其剔除,知道回归方程中所含的所有变量对的作用都显著是,才考虑引入新的变量。再在剩下的未选因子中,选出对作用最大者,检验其显著性,显著着,引入方程,不显著,则不引入。直到最后再没有显著因子可以引入,也没有不显著的变量需要剔除为止。逐步回归分析时在考虑的全部自变量中按其对的贡献程度大小,由大到小地逐个引入回归方程,而对那些对作用不显著的变量可能是中不被引入回归方程。另外,已被引入回归方程的变量在引入新变量进行检验后失去重要性时,需要从回归方程中剔除出去。Step1计算变量均值和差平方和记各自的标准化变量为Step2计算的相关系数

5、矩阵。Step3设已经选上了个变量:且互不相同,经过变换后为对逐一计算标准化变量的偏回归平方和,记,作检验,,对给定的显著性水平,拒绝域为。Step4最Step3循环,直至最终选上了个变量,且互不相同,经过变换后为,则对应的回归方程为:,通过代数运算可得。2.3数据来源及分析2.3.1数据来源本文数据采用2010年吉林省大豆种植研究数据中的274个大豆品种中的8个植株性状和生育日数及小区产量进行回归分析,其中植株性状选用:株高x2、有效分枝数x3、主茎节数x4、单株荚数x5、单株粒数x6、每荚粒数x7、百粒重x8、单株粒重x9,生育日数x1及小区产量y。2.3.2数据分析本文利用

6、R语言对以上数据进行分析,分析过程及结果如下:1、数据选用及处理整理已选用好的9个自变量及一个因变量,剔除缺失值,进行线性回归分析:Residualstandarderror:214.3on247degreesoffreedomMultipleR-squared:0.4711,AdjustedR-squared:0.4518F-statistic:24.44on9and247DF,p-value:<2.2e-16从输出结果可以看出,修正决定系数为0.4518,剩余方差估计值=,F统计量估计值为24.44,对应p值2.2e-16比显著水平0.05小,说明回归方程是显著的。可决系数为

7、0.4711,修正的可决系数为0.4518。2、残差分析左上图是拟合值与残差的散点图,从图上可以发现,所有点基本上是随机地分散在纵坐标值为-3和+3的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第6个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。3、多重共线性检

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。